* Salário: R$ 2.000 a R$ 5.000 por mês (estimado)
* O valor exibido é uma estimativa calculada com base em dados públicos e referências do mercado. Não garantimos que este seja o salário oferecido para esta vaga específica.
Área: Outros
Nível: Pleno
Estamos em busca de um(a) profissional para atuar como Site Reliability Engineer (SRE) Pleno, garantindo a confiabilidade, disponibilidade e performance de aplicações em ambientes distribuídos e multi-cloud. Essa pessoa será responsável por operar e otimizar sistemas críticos, promovendo automação, observabilidade ponta a ponta e resolução eficiente de incidentes, além de atuar de forma colaborativa com times de desenvolvimento para assegurar entregas resilientes e alinhadas à estratégia da organização.
Responsabilidades:
– Atuar na operação e sustentação de ambientes Kubernetes (AKS, EKS e GKE), garantindo a disponibilidade, estabilidade e escalabilidade das aplicações em produção.
– Monitorar, identificar e tratar incidentes em aplicações distribuídas utilizando ferramentas de observabilidade como Dynatrace (APM, tracing) e Grafana (logs e métricas).
– Gerenciar e manter estratégias de GitOps utilizando Argo CD, garantindo consistência e automação nos processos de deploy.
– Construir, manter e otimizar pipelines de CI/CD utilizando Azure DevOps Pipelines ou ferramentas similares.
– Administrar e dar suporte a bancos de dados MongoDB e PostgreSQL, garantindo integridade, disponibilidade e performance.
– Realizar análises técnicas e troubleshooting avançado em aplicações distribuídas, incluindo análise de código e comportamento em runtime em linguagens como .NET, Python, Java e Node.js.
– Atuar na gestão de incidentes (on-call), realizando análise de causa raiz (RCA), correções e implementação de melhorias contínuas.
– Definir, monitorar e acompanhar métricas de confiabilidade como SLIs, SLOs e SLAs.
– Gerenciar e otimizar a entrega de conteúdo e performance global utilizando CDN (Akamai ou similares).
– Apoiar na automação e otimização contínua dos ambientes, propondo melhorias em performance, custo e confiabilidade.
– Trabalhar em conjunto com times de desenvolvimento, engenharia e áreas relacionadas para entendimento de demandas, análise de impactos e priorização de incidentes.
– Elaborar documentações técnicas, registros de incidentes e relatórios de acompanhamento, assegurando rastreabilidade e compartilhamento de conhecimento.
Requisitos:
– Experiência com metodologias ágeis (Scrum/Kanban).
– Experiência com Kubernetes (deploy, troubleshooting, observabilidade e segurança).
– Vivência com ambientes multi-cloud (AWS, Azure e GCP).
– Conhecimento em ferramentas de observabilidade (APM, logs, métricas e tracing – ex: Dynatrace, Grafana).
– Experiência com CI/CD (Azure DevOps Pipelines ou similares).
– Conhecimento em bancos de dados NoSQL (MongoDB) e relacionais (PostgreSQL).
– Experiência com CDN e otimização de performance (Akamai ou similares).
– Capacidade de troubleshooting em aplicações desenvolvidas em .NET, Python, Java e Node.js.
– Conhecimento em Linux, redes (HTTP, DNS, TLS), containers (Docker) e infraestrutura como código (Terraform).
– Experiência com ambientes de alta escala e missão crítica.
– Conhecimento em caching, tuning de CDN e otimização de performance.
– Experiência com tuning de banco de dados (queries, índices e performance).
– Conhecimento em práticas de FinOps (otimização de custos em cloud).
– Ensino superior completo em áreas como Ciência da Computação, Engenharia, Sistemas de Informação ou áreas correlatas.
– Boa comunicação verbal e escrita.
– Capacidade analítica e raciocínio lógico.
– Organização, proatividade e senso de ownership.
Informações importantes:
Modelo de Trabalho: Home Office
Horário: Segunda a sexta – 09h00 às 18h00.
Forma de contratação: PJ.
Idioma: Inglês - Técnico.
