* Salário: R$ 12.000 a R$ 20.000 por mês (estimado)

* O valor exibido é uma estimativa calculada com base em dados públicos e referências do mercado. Não garantimos que este seja o salário oferecido para esta vaga específica.

Área: Engenharia

Nível: Senior

Sobre a Vaga

No Reclame AQUI, somos os guardiões da confiança nas relações de consumo, e nossa plataforma é o palco onde essa confiança é construída diariamente. Para garantir que cada opinião seja ouvida, cada problema seja exposto e cada solução seja encontrada, precisamos de uma infraestrutura que não para, que escala e que está sempre à frente. É aqui que você entra!
Procuramos um(a) Engenheiro(a) de Confiabilidade (SRE) que traduza a missão de confiança do Reclame AQUI em garantia técnica, assegurando que nossa plataforma seja sempre íntegra, rápida e disponível. Seu maior desafio será gerenciar a alta escalabilidade e a complexidade de um sistema crítico em evolução acelerada, transformando nossa cultura operacional reativa em uma cultura de engenharia de confiabilidade e automação proativa. Venha ser a espinha dorsal tecnológica da confiança que move o Brasil!

Missão do Cargo
Ser o Guardião da Confiança Digital e da Excelência Operacional, utilizando a engenharia de software (SRE) para garantir que a voz do consumidor seja sempre
íntegra, visível e disponível, assegurando a missão de transparência do Reclame AQUI.

Suas Responsabilidades:
* Confiabilidade e Operação:
* Aumentar a confiabilidade e a performance dos serviços críticos do Reclame AQUI, garantindo o cumprimento rigoroso dos SLOs (Service Level Objectives) para manter nossa credibilidade inabalável.
* Gerenciar e evoluir a infraestrutura em GCP e Kubernetes (K8s), assegurando a estabilidade e a escalabilidade contínua do ambiente.
* Implementar e manter a stack de Observabilidade (O11y), utilizando ferramentas como Prometheus e Grafana, para visibilidade proativa e troubleshooting eficiente de potenciais problemas.
* Conduzir análises post-mortem de incidentes com uma cultura sem culpa, identificando causas-raiz e implementando soluções duradouras para prevenir recorrências e fortalecer nosso aprendizado.
* Automação e Engenharia:
* Automatizar tarefas operacionais repetitivas (toil), focando na otimização do tempo do time e na eliminação de gargalos manuais.
* Desenvolver e manter a Infraestrutura como Código (IaC) de forma robusta e modular utilizando Terraform, promovendo agilidade e consistência.
* Evoluir as pipelines de CI/CD e Deploy utilizando ferramentas como Argo, garantindo entregas rápidas, seguras e incrementais.
* Evangelizar e otimizar as plataforma de desenvolvimento, facilitando a experiência e a produtividade dos times de engenharia.
* Otimização e Segurança:
* Implementar e monitorar práticas de FinOps com foco em otimização de custos e uso eficiente de recursos em Cloud (GCP/Spotinst).
* Aprimorar a segurança e os padrões de infraestrutura (como o uso de Helm para empacotamento) através de code reviews e validações constantes.
* Garantir a correta utilização de Bitbucket e o gerenciamento do ciclo de vida do código de infraestrutura.

Pré-requisitos

* Experiência sólida com GCP em geral.
* Proficiência em ferramentas de automação com Terraform.
* Conhecimento e experiência com a plataforma Backstage.
* Experiência em O11y (Observabilidade), com domínio da stack Prometheus + Grafana.
* Sólida vivência com pipelines de CI/CD.
* Conhecimento avançado em ambiente Linux.
* Habilidade de programação em Python ou Golang.
* Experiência com Argo.
* Familiaridade com Bitbucket ou outras ferramentas de controle de versão.
* Domínio dos conceitos e aplicação de SLI/SLO em um contexto SRE.
* Experiência robusta com Kubernetes (K8s).

Diferencial

* Conhecimento em otimização e diagnóstico de performance de Banco de Dados: Experiência com Tuning de Queries (SQL/NoSQL) e análise de planos de execução (explain plans), visando a redução de latência e o consumo eficiente de recursos.
* Conhecimento em Networking de Nuvem: Bom entendimento de redes em ambientes de Cloud/K8s (incluindo VPC, NEG, Service Mesh, Ingress e CNI) para troubleshooting avançado de conectividade e otimização de tráfego.
* Operação e Gerenciamento de MongoDB Atlas: Conhecimento em rotinas de operação e administração de clusters Atlas, incluindo monitoramento de performance, gestão de usuários/segurança e procedimentos de backup e restore.

Engenheiro(a) de Confiabilidade - SRE