* Salário: R$ 11.000 a R$ 20.000 por mês (estimado)
* O valor exibido é uma estimativa calculada com base em dados públicos e referências do mercado. Não garantimos que este seja o salário oferecido para esta vaga específica.
Área: Tecnologia da Informação
Nível: Senior
Detalhes da vaga
- Há 6 dias
Benefícios
- Vale-refeição
- Vale-transporte
- Assistência médica
- Assistência odontológica
- Previdência privada
- Seguro de vida
- Auxílio-creche
Qualificações
- Ciência da Computação
- Infraestrutura em Nuvem
- Azure
- Arquitetura de Nuvem
- Auditoria
- Certificação AWS
- Inglês
- Segurança da Informação
- AWS
- Capacidade Analítica
- Graduação
- Melhoria Contínua
- Sistemas distribuídos
- DNS
- Segurança
- Inteligência artificial
- Pós-Graduação
- Software architecture
- Tecnologia da Informação
Descrição completa da vaga
Especialista II De Infraestrutura De Cloud
Confidencial (Apenas para Cadastrados) | São Paulo - SP | Remoto
Descrição da vaga
Arquitetar e evoluir a infraestrutura da plataforma de IA da Cloud Confidencial (Apenas para Cadastrados) de forma segura, escalável e sustentável, assegurando previsibilidade operacional, eficiência financeira e baixo acoplamento tecnológico, de modo a sustentar o crescimento contínuo dos serviços de inferência e dos produtos de IA da companhia.
Responsabilidades e atribuições
- Arquitetar e evoluir a infraestrutura de inferência e suporte a treinamento e fine-tuning de modelos, com abordagem GPU-first, considerando ambientes on-premises, cloud e serviços externos quando aplicável.
- Definir a arquitetura do ambiente, incluindo topologias de rede, isolamento de workloads, alta disponibilidade, capacidade e resiliência.
- Planejar e executar a implantação da plataforma de IA, garantindo compatibilidade entre hardware, sistema operacional, drivers, stacks CUDA (ou equivalentes), Kubernetes e plataformas de inferência.
- Operar e sustentar a plataforma de inferência em produção, assegurando disponibilidade, desempenho e continuidade operacional (em escopo de arquitetura estratégica).
- Apoiar o planejamento e a execução de ações de melhoria decorrentes de incidentes complexos envolvendo GPUs, Kubernetes, redes, storage e workloads de inferência.
- Aplicar práticas de SRE, incluindo definição e acompanhamento de SLOs, SLIs, error budgets e gestão de incidentes.
- Operar e evoluir stacks de inferência comerciais e open source (ex.: NVIDIA AI Enterprise, Triton, vLLM, KServe), garantindo portabilidade e mitigação de lock-in.
- Definir e padronizar o uso de serviços de inferência quando aplicável (ex.: Triton, NIM).
- Arquitetar e operar clusters Kubernetes para workloads de IA, com foco em isolamento multi-tenant, GPU scheduling, concorrência, filas, backpressure e escalabilidade.
- Implementar observabilidade full stack, abrangendo infraestrutura, GPUs, Kubernetes e serviços de inferência.
- Garantir visibilidade sobre consumo de recursos, capacidade, riscos operacionais e impacto financeiro das cargas de IA.
- Apoiar processos de capacity planning e planejamento orçamentário, avaliando trade-offs entre soluções comerciais e open source.
- Integrar práticas de DevSecOps desde a concepção até a operação da plataforma.
- Garantir conformidade com políticas de segurança, auditoria, controle de acesso e segregação de ambientes.
- Disseminar padrões técnicos, boas práticas e conhecimento por meio de documentação estruturada e mentorias técnicas.
- Apoiar tecnicamente fóruns internos e processos decisórios relacionados à infraestrutura de IA.
Requisitos e qualificações
Experiência
- Experiência mínima de 5 anos em infraestrutura de TI, cloud ou plataformas distribuídas, com atuação em ambientes críticos.
- Experiência comprovada em arquitetura e operação de sistemas distribuídos, preferencialmente com workloads de dados, analytics ou IA.
- Vivência mínima de 3 anos em equipes multidisciplinares, interagindo com times de produto, dados, segurança e arquitetura.
- Graduação em Tecnologia da Informação, Engenharia, Ciência da Computação ou áreas correlatas.
- Pós-graduação ou MBA em Arquitetura de Software, Cloud Computing, Sistemas Distribuídos, Segurança da Informação ou áreas afins (desejável).
- Inglês avançado para leitura técnica, escrita e conversação, com capacidade de participar de discussões técnicas e estratégicas.
- Certificações relacionadas a Kubernetes, Cloud Pública e Infraestrutura como Código (IaC).
- Domínio de sistemas distribuídos, incluindo concorrência, balanceamento de carga, isolamento de workloads, filas e backpressure.
- Experiência sólida em Kubernetes, incluindo ambientes gerenciados (EKS, GKE, AKS), scheduling avançado e isolamento multi-tenant.
- Conhecimento avançado em ambientes de missão crítica, com foco em alta disponibilidade, resiliência e continuidade operacional.
- Domínio de arquitetura de redes aplicadas a cloud e Kubernetes (TCP/IP, DNS, Load Balancers, Firewalls, SDN).
- Domínio na aplicação de soluções de storage para workloads I/O intensive em Kubernetes e ambientes de grande escala.
- Experiência com serviços de nuvem pública (AWS, Azure e/ou GCP) e entendimento do modelo de responsabilidade compartilhada.
- Domínio de observabilidade (métricas, logs e traces) aplicada a infraestrutura e plataformas de IA.
- Experiência com Infraestrutura como Código (IaC) e automação.
- Conhecimento aplicado em práticas de DevSecOps e SRE.
Requisitos desejáveis
- Forte senso de ownership sobre a plataforma e seus resultados.
- Capacidade de atuar na resolução de problemas complexos de infraestrutura e sistemas distribuídos.
- Comunicação clara e estruturada com públicos técnicos, com habilidade de traduzir impactos técnicos em riscos operacionais e financeiros.
- Tomada de decisão orientada por trade-offs técnicos, operacionais e de custo.
- Mentalidade voltada à confiabilidade, melhoria contínua e visão de plataforma.
- Alta capacidade analítica para diagnóstico e resolução de problemas complexos.
- Entendimento do contexto de negócio para embasar decisões técnicas.
- Postura proativa e orientada a resultados.
- Perfil colaborativo, com facilidade de atuação em ambientes multidisciplinares.
- Atuará na área de Infra Core, integrante da estrutura de Infraestrutura dentro do ecossistema de Cloud.
- A área possui caráter estruturante, com tomada de decisões que impactam a companhia como um todo, especialmente na definição da arquitetura estratégica de nuvem.
- O profissional atuará como Tech Lead, com autonomia para conduzir iniciativas de forma independente e responsabilidade por apoiar e desenvolver outros profissionais, incluindo especialistas.
- Deverá demonstrar forte capacidade de aprender, desaprender e ensinar, acompanhando a evolução contínua do ambiente de Cloud, com foco estratégico atual em IA e arquitetura distribuída.
Faixa salarial
A combinar
Regime de contratação
CLT
Benefícios
- Universidade em Rede Confidencial (Apenas para Cadastrados), uma universidade Corporativa com conteúdos e certificações gratuitos para cada pessoa colaboradora;
- Programa +Saudáveis, que cuida de cada TOTVER com assessoria e ações voltadas para o bem estar em corpo, mente e finanças pessoais;
- Programa +Vantagens, a maior rede de descontos da América Latina, exclusivos para nossas pessoas colaboradoras;
- Programa + Cuidado, programa de apoio pessoal para pessoas colaboradoras e familiares, com orientações em diversas especialidades como: psicologia, serviço social, pet consultoria...
- Einstein Conecta, benefício de orientação médica online pelos médicos do Hospital Israelita Albert Einstein, totalmente gratuito;
- Plano de saúde e odontológico;
- Vale refeição e / ou alimentação;
- Vale transporte e fretados em algumas estações do metrô;
- Licença maternidade e paternidade estendida;
- Espaço de lactário;
- Bicicletário;
- Vestiário;
- Seguro de vida;
- Auxílio creche;
- Previdência privada;
- Escritório que estimula a criatividade e produtividade com ambientes para lanches, salas de jogos, mesas de bilhar e poltronas para relaxar;
- Gympass.
Sobre a empresa
Como empresa líder em tecnologia somos um universo de pessoas inconformadas, movidas por inovação, autonomia, aprendizado e performance.
Juntos e juntas, criamos oportunidades, transformamos futuros e compartilhamos conhecimento. Aqui o seu desenvolvimento profissional acontece em um ambiente inclusivo, respeitoso e energizante. De gente pra gente!
Buscamos o crescimento sustentável. E usamos dados e IA para impulsionar resultados mais inteligentes e eficientes para os nossos clientes.
Vem com a gente inovar e construir o futuro da tecnologia.
#VemPraConfidencial (Apenas para Cadastrados) #SomosConfidencial (Apenas para Cadastrados)
