Caro usuário, habilite o javascript para que esse site funcione corretamente.

Gerente de SRE (Site Reliability Engineering)

CLT (Efetivo)Presencial (Local)Recife-PEEmpresa Confidencial (Cadastre-se)

* Salário: R$ 2.000 a R$ 5.000 por mês (estimado)

* O valor exibido é uma estimativa calculada com base em dados públicos e referências do mercado. Não garantimos que este seja o salário oferecido para esta vaga específica.

Área: Outros

Nível: Gerente

Descrição do Cargo:

A pessoa Gerente SRE (Site Reliability Engineering) é responsável por liderar a equipe de engenheiros de confiabilidade do site, garantindo a disponibilidade, desempenho e eficiência dos sistemas e infraestrutura.

Requisitos:
  • Experiência prévia em funções de SRE ou operações de sistemas
  • Conhecimento em ferramentas de monitoramento e análise de sistemas
  • Habilidades de liderança e trabalho em equipe
  • Capacidade de resolver problemas complexos de forma eficiente
  • Conhecimento em práticas de DevOps e automação
  • Excelentes habilidades de comunicação e documentação
  • Formação acadêmica na área de Tecnologia da Informação ou áreas relacionadas

Experiência

  • Sólida vivência em Engenharia de Software, DevOps ou SRE, com experiência comprovada em posição de liderança/gestão de times técnicos.
  • Histórico de atuação em ambientes de alta escala e criticidade.

Stack técnica

  • Nuvem pública: AWS, GCP, Azure e/ou OCI.
  • Orquestração e containers: Kubernetes e Docker.
  • IaC: Terraform e Ansible.
  • Observabilidade: Prometheus, Grafana, Datadog e OpenTelemetry.
  • Linguagens: Go, Python e Bash.
  • Bancos de dados relacionais e NoSQL em produção.

Práticas

  • Disaster Recovery, segurança em infraestrutura e FinOps.
  • Gestão de incidentes e cultura de postmortems.
  • Planejamento de capacidade e performance em ambientes de microsserviços.

Soft skills

  • Liderança e desenvolvimento de pessoas.
  • Comunicação clara com públicos técnicos e executivos.
  • Tomada de decisão sob pressão e raciocínio analítico.
  • Visão de negócio e capacidade de priorização.
Responsabilidades

Liderança estratégica

  • Definir a visão, o roadmap e os processos da área de SRE, alinhando a infraestrutura aos objetivos de negócio.
  • Estabelecer e evoluir políticas de SLIs, SLOs, SLAs e error budgets.
  • Representar a área junto a stakeholders de Produto, Engenharia, Segurança e Negócios.

Gestão de pessoas e projetos

  • Liderar, desenvolver e engajar a equipe de SRE, conduzindo 1:1s, PDIs, avaliações de desempenho e processos de contratação.
  • Gerenciar orçamentos de Capex e Opex, acompanhando KPIs de eficiência e custo.
  • Priorizar iniciativas e balancear entregas de curto prazo com investimentos em confiabilidade.

Confiabilidade e performance

  • Elevar a resiliência dos ambientes, monitorando disponibilidade, latência, taxa de erro e saturação.
  • Planejar capacidade, performance e custos de infraestrutura (FinOps).
  • Conduzir iniciativas de Disaster Recovery, testes de resiliência e chaos engineering.

Resposta a incidentes

  • Atuar ativamente na gestão de crises e incidentes críticos (incident commander quando necessário).
  • Promover a cultura de blameless post-mortems e aprendizado contínuo.
  • Estruturar rotinas de on-call saudáveis e sustentáveis para o time.

Automação e engenharia de plataforma

  • Impulsionar o uso de IaC (Terraform, Ansible) e pipelines de CI/CD.
  • Reduzir toil por meio de automação e construção de capacidades de plataforma reutilizáveis.
  • Estabelecer padrões de observabilidade (logs, métricas, traces) com Prometheus, Grafana, Datadog e OpenTelemetry.

Modelo de Trabalho: Presencial - Recife - PE


BUSCAS DE VAGAS SEMELHANTES