* Salário: R$ 2.000 a R$ 5.000 por mês (estimado)

* O valor exibido é uma estimativa calculada com base em dados públicos e referências do mercado. Não garantimos que este seja o salário oferecido para esta vaga específica.

Área: Outros

Nível: Gerente

Descrição do Cargo:

A pessoa Gerente SRE (Site Reliability Engineering) é responsável por liderar a equipe de engenheiros de confiabilidade do site, garantindo a disponibilidade, desempenho e eficiência dos sistemas e infraestrutura.

Requisitos:

Experiência prévia em funções de SRE ou operações de sistemas
Conhecimento em ferramentas de monitoramento e análise de sistemas
Habilidades de liderança e trabalho em equipe
Capacidade de resolver problemas complexos de forma eficiente
Conhecimento em práticas de DevOps e automação
Excelentes habilidades de comunicação e documentação
Formação acadêmica na área de Tecnologia da Informação ou áreas relacionadas

Experiência

Sólida vivência em Engenharia de Software, DevOps ou SRE, com experiência comprovada em posição de liderança/gestão de times técnicos.
Histórico de atuação em ambientes de alta escala e criticidade.

Stack técnica

Nuvem pública: AWS, GCP, Azure e/ou OCI.
Orquestração e containers: Kubernetes e Docker.
IaC: Terraform e Ansible.
Observabilidade: Prometheus, Grafana, Datadog e OpenTelemetry.
Linguagens: Go, Python e Bash.
Bancos de dados relacionais e NoSQL em produção.

Práticas

Disaster Recovery, segurança em infraestrutura e FinOps.
Gestão de incidentes e cultura de postmortems.
Planejamento de capacidade e performance em ambientes de microsserviços.

Soft skills

Liderança e desenvolvimento de pessoas.
Comunicação clara com públicos técnicos e executivos.
Tomada de decisão sob pressão e raciocínio analítico.
Visão de negócio e capacidade de priorização.

Responsabilidades

Liderança estratégica

Definir a visão, o roadmap e os processos da área de SRE, alinhando a infraestrutura aos objetivos de negócio.
Estabelecer e evoluir políticas de SLIs, SLOs, SLAs e error budgets.
Representar a área junto a stakeholders de Produto, Engenharia, Segurança e Negócios.

Gestão de pessoas e projetos

Liderar, desenvolver e engajar a equipe de SRE, conduzindo 1:1s, PDIs, avaliações de desempenho e processos de contratação.
Gerenciar orçamentos de Capex e Opex, acompanhando KPIs de eficiência e custo.
Priorizar iniciativas e balancear entregas de curto prazo com investimentos em confiabilidade.

Confiabilidade e performance

Elevar a resiliência dos ambientes, monitorando disponibilidade, latência, taxa de erro e saturação.
Planejar capacidade, performance e custos de infraestrutura (FinOps).
Conduzir iniciativas de Disaster Recovery, testes de resiliência e chaos engineering.

Resposta a incidentes

Atuar ativamente na gestão de crises e incidentes críticos (incident commander quando necessário).
Promover a cultura de blameless post-mortems e aprendizado contínuo.
Estruturar rotinas de on-call saudáveis e sustentáveis para o time.

Automação e engenharia de plataforma

Impulsionar o uso de IaC (Terraform, Ansible) e pipelines de CI/CD.
Reduzir toil por meio de automação e construção de capacidades de plataforma reutilizáveis.
Estabelecer padrões de observabilidade (logs, métricas, traces) com Prometheus, Grafana, Datadog e OpenTelemetry.

Modelo de Trabalho: Presencial - Recife - PE

Gerente de SRE (Site Reliability Engineering)