* Salário: R$ 2.000 a R$ 5.000 por mês (estimado)
* O valor exibido é uma estimativa calculada com base em dados públicos e referências do mercado. Não garantimos que este seja o salário oferecido para esta vaga específica.
Área: Outros
Nível: Gerente
Descrição do Cargo:
A pessoa Gerente SRE (Site Reliability Engineering) é responsável por liderar a equipe de engenheiros de confiabilidade do site, garantindo a disponibilidade, desempenho e eficiência dos sistemas e infraestrutura.
Requisitos:- Experiência prévia em funções de SRE ou operações de sistemas
- Conhecimento em ferramentas de monitoramento e análise de sistemas
- Habilidades de liderança e trabalho em equipe
- Capacidade de resolver problemas complexos de forma eficiente
- Conhecimento em práticas de DevOps e automação
- Excelentes habilidades de comunicação e documentação
- Formação acadêmica na área de Tecnologia da Informação ou áreas relacionadas
Experiência
- Sólida vivência em Engenharia de Software, DevOps ou SRE, com experiência comprovada em posição de liderança/gestão de times técnicos.
- Histórico de atuação em ambientes de alta escala e criticidade.
Stack técnica
- Nuvem pública: AWS, GCP, Azure e/ou OCI.
- Orquestração e containers: Kubernetes e Docker.
- IaC: Terraform e Ansible.
- Observabilidade: Prometheus, Grafana, Datadog e OpenTelemetry.
- Linguagens: Go, Python e Bash.
- Bancos de dados relacionais e NoSQL em produção.
Práticas
- Disaster Recovery, segurança em infraestrutura e FinOps.
- Gestão de incidentes e cultura de postmortems.
- Planejamento de capacidade e performance em ambientes de microsserviços.
Soft skills
- Liderança e desenvolvimento de pessoas.
- Comunicação clara com públicos técnicos e executivos.
- Tomada de decisão sob pressão e raciocínio analítico.
- Visão de negócio e capacidade de priorização.
Liderança estratégica
- Definir a visão, o roadmap e os processos da área de SRE, alinhando a infraestrutura aos objetivos de negócio.
- Estabelecer e evoluir políticas de SLIs, SLOs, SLAs e error budgets.
- Representar a área junto a stakeholders de Produto, Engenharia, Segurança e Negócios.
Gestão de pessoas e projetos
- Liderar, desenvolver e engajar a equipe de SRE, conduzindo 1:1s, PDIs, avaliações de desempenho e processos de contratação.
- Gerenciar orçamentos de Capex e Opex, acompanhando KPIs de eficiência e custo.
- Priorizar iniciativas e balancear entregas de curto prazo com investimentos em confiabilidade.
Confiabilidade e performance
- Elevar a resiliência dos ambientes, monitorando disponibilidade, latência, taxa de erro e saturação.
- Planejar capacidade, performance e custos de infraestrutura (FinOps).
- Conduzir iniciativas de Disaster Recovery, testes de resiliência e chaos engineering.
Resposta a incidentes
- Atuar ativamente na gestão de crises e incidentes críticos (incident commander quando necessário).
- Promover a cultura de blameless post-mortems e aprendizado contínuo.
- Estruturar rotinas de on-call saudáveis e sustentáveis para o time.
Automação e engenharia de plataforma
- Impulsionar o uso de IaC (Terraform, Ansible) e pipelines de CI/CD.
- Reduzir toil por meio de automação e construção de capacidades de plataforma reutilizáveis.
- Estabelecer padrões de observabilidade (logs, métricas, traces) com Prometheus, Grafana, Datadog e OpenTelemetry.
Modelo de Trabalho: Presencial - Recife - PE
