* Salário: R$ 2.000 a R$ 5.000 por mês (estimado)

* O valor exibido é uma estimativa calculada com base em dados públicos e referências do mercado. Não garantimos que este seja o salário oferecido para esta vaga específica.

Área: Outros

Nível: Pleno

Estamos em busca de um(a) profissional para atuar como Site Reliability Engineer (SRE) Pleno, garantindo a confiabilidade, disponibilidade e performance de aplicações em ambientes distribuídos e multi-cloud. Essa pessoa será responsável por operar e otimizar sistemas críticos, promovendo automação, observabilidade ponta a ponta e resolução eficiente de incidentes, além de atuar de forma colaborativa com times de desenvolvimento para assegurar entregas resilientes e alinhadas à estratégia da organização.

Responsabilidades:

– Atuar na operação e sustentação de ambientes Kubernetes (AKS, EKS e GKE), garantindo a disponibilidade, estabilidade e escalabilidade das aplicações em produção.

– Monitorar, identificar e tratar incidentes em aplicações distribuídas utilizando ferramentas de observabilidade como Dynatrace (APM, tracing) e Grafana (logs e métricas).

– Gerenciar e manter estratégias de GitOps utilizando Argo CD, garantindo consistência e automação nos processos de deploy.

– Construir, manter e otimizar pipelines de CI/CD utilizando Azure DevOps Pipelines ou ferramentas similares.

– Administrar e dar suporte a bancos de dados MongoDB e PostgreSQL, garantindo integridade, disponibilidade e performance.

– Realizar análises técnicas e troubleshooting avançado em aplicações distribuídas, incluindo análise de código e comportamento em runtime em linguagens como .NET, Python, Java e Node.js.

– Atuar na gestão de incidentes (on-call), realizando análise de causa raiz (RCA), correções e implementação de melhorias contínuas.

– Definir, monitorar e acompanhar métricas de confiabilidade como SLIs, SLOs e SLAs.

– Gerenciar e otimizar a entrega de conteúdo e performance global utilizando CDN (Akamai ou similares).

– Apoiar na automação e otimização contínua dos ambientes, propondo melhorias em performance, custo e confiabilidade.

– Trabalhar em conjunto com times de desenvolvimento, engenharia e áreas relacionadas para entendimento de demandas, análise de impactos e priorização de incidentes.

– Elaborar documentações técnicas, registros de incidentes e relatórios de acompanhamento, assegurando rastreabilidade e compartilhamento de conhecimento.

Requisitos:

– Experiência com metodologias ágeis (Scrum/Kanban).

– Experiência com Kubernetes (deploy, troubleshooting, observabilidade e segurança).

– Vivência com ambientes multi-cloud (AWS, Azure e GCP).

– Conhecimento em ferramentas de observabilidade (APM, logs, métricas e tracing – ex: Dynatrace, Grafana).

– Experiência com CI/CD (Azure DevOps Pipelines ou similares).

– Conhecimento em bancos de dados NoSQL (MongoDB) e relacionais (PostgreSQL).

– Experiência com CDN e otimização de performance (Akamai ou similares).

– Capacidade de troubleshooting em aplicações desenvolvidas em .NET, Python, Java e Node.js.

– Conhecimento em Linux, redes (HTTP, DNS, TLS), containers (Docker) e infraestrutura como código (Terraform).

– Experiência com ambientes de alta escala e missão crítica.

– Conhecimento em caching, tuning de CDN e otimização de performance.

– Experiência com tuning de banco de dados (queries, índices e performance).

– Conhecimento em práticas de FinOps (otimização de custos em cloud).

– Ensino superior completo em áreas como Ciência da Computação, Engenharia, Sistemas de Informação ou áreas correlatas.

– Boa comunicação verbal e escrita.

– Capacidade analítica e raciocínio lógico.

– Organização, proatividade e senso de ownership.

Informações importantes:

Modelo de Trabalho: Home Office

Horário: Segunda a sexta – 09h00 às 18h00.

Forma de contratação: PJ.

Idioma: Inglês - Técnico.

SRE Pleno - 26359

BUSCAS DE VAGAS SEMELHANTES