* Salário: R$ 2.000 a R$ 5.000 por mês (estimado)

* O valor exibido é uma estimativa calculada com base em dados públicos e referências do mercado. Não garantimos que este seja o salário oferecido para esta vaga específica.

Área: Outros

Nível: Senior

Há mais de 11 anos, desafiamos o mercado financeiro com soluções acessíveis e inovadoras. Aprovamos até 2x mais que outros players, com tecnologia que combina mais de 400 fatores para oferecer crédito rápido e sem complicação, usando só CPF e celular.
No Confidencial (Apenas para Cadastrados), dar um jeito é pra hoje. Temos urgência porque nosso cliente tem urgência. É por isso que buscamos, todo dia, dar um jeito pra que quem faz muito com pouco continue fazendo mais e melhor sempre.

A área de SRE é responsável por garantir a confiabilidade, disponibilidade e resiliência dos sistemas do Confidencial (Apenas para Cadastrados), atuando de forma proativa na prevenção de incidentes e na rápida recuperação de falhas.

Essa posição oferece a oportunidade de atuar de forma estratégica na evolução da confiabilidade e das plataformas de engenharia, com alto nível de autonomia e influência sobre decisões técnicas. É um papel voltado não só à operação, mas principalmente à construção e evolução de práticas modernas de SRE, com impacto direto na experiência dos usuários e na eficiência dos times.

O que você vai fazer por aqui:

Definir, implementar e evoluir práticas de confiabilidade baseadas em SLIs, SLOs, SLAs e gestão de error budgets, garantindo alinhamento entre qualidade de serviço e velocidade de entrega;
Atuar na construção e evolução da estratégia de observabilidade (métricas, logs e traces distribuídos), definindo padrões, ferramentas e boas práticas para toda a organização;
Liderar iniciativas de automação de infraestrutura e pipelines (CI/CD), promovendo uso de infraestrutura como código (IaC) e reduzindo esforço operacional manual;
Atuar no diagnóstico e resolução de incidentes críticos, conduzindo análises de causa raiz (RCA) e promovendo melhorias estruturais para evitar recorrência;
Projetar e evoluir arquiteturas resilientes e escaláveis em ambientes cloud (AWS, GCP ou Azure), considerando trade-offs de disponibilidade, consistência e custo;
Atuar como referência técnica para times de engenharia, apoiando decisões de arquitetura, performance e confiabilidade de sistemas distribuídos;
Promover e implementar práticas de engenharia de resiliência, incluindo chaos engineering, testes de carga e validação de falhas controladas;
Definir e acompanhar métricas de engenharia (DORA, disponibilidade, latência, erro), utilizando dados para direcionar melhorias contínuas;
Atuar de forma transversal com times de Engenharia, Produto, Segurança e Arquitetura, garantindo integração entre soluções e alinhamento com objetivos de negócio;
Mentorar engenheiros e disseminar cultura de confiabilidade, excelência técnica e boas práticas de SRE;
Identificar e atuar na redução de toil (trabalho operacional repetitivo), aumentando a eficiência e foco do time em atividades de maior valor.

O que buscamos em você:
Experiência sólida atuando como SRE, DevOps ou Software Engineer em ambientes de alta escala e criticidade;
Conhecimento em pelo menos uma linguagem de programação (Python, Go, Java ou similares) aplicada à automação ou desenvolvimento de ferramentas;
Experiência prática na definição e gestão de SLIs, SLOs, SLAs e error budgets orientando decisões de engenharia;
Experiência com cloud computing (AWS, GCP ou Azure) em ambientes produtivos complexos;
Experiência com Kubernetes em produção, incluindo troubleshooting, scaling e operação de workloads críticos;
Domínio de observabilidade (métricas, logs e traces distribuídos) com ferramentas como Datadog, Prometheus, Grafana, ELK, ou OpenTelemetry;
Experiência com infraestrutura como código (Terraform, Ansible ou similares) e automação de ambientes;
Experiência com construção e evolução de pipelines CI/CD e práticas de engenharia de entrega contínua;
Experiência com práticas de resiliência, gestão de incidentes e análise de causa raiz (RCA);
Forte capacidade analítica e orientação a dados para tomada de decisão baseada em métricas de confiabilidade;
Experiência atuando de forma colaborativa com múltiplos times (engenharia, segurança, arquitetura);
Boa comunicação e habilidade de influenciar decisões técnica.

Vai ser um diferencial se você tiver:
Experiência com Datadog;
Inglês Avançado.
Certificações de Cloud ou Kubernetes.
Pós-Graduação.
Já ter atuado como desenvolvedora.

Aviso de Privacidade
O Confidencial (Apenas para Cadastrados) trata os dados pessoais enviados nesta candidatura exclusivamente para fins de recrutamento e seleção, conforme a LGPD. Ao se candidatar, você concorda com o processamento dos seus dados para análise de perfil e comunicações pertinentes ao processo. Dúvidas? Você pode contatar o canal oficial de privacidade do Confidencial (Apenas para Cadastrados): privacidade@Confidencial (Apenas para Cadastrados).com.br

Site Reliability Engineer Sênior