Caro usuário, habilite o javascript para que esse site funcione corretamente.

Senior Artificial Intelligence Reliability Engineering

* Salário: R$ 11.000 a R$ 20.000 por mês (estimado)

* O valor exibido é uma estimativa calculada com base em dados públicos e referências do mercado. Não garantimos que este seja o salário oferecido para esta vaga específica.

Área: Tecnologia da Informação

Nível: Senior

Trabalhar na Confidencial (Apenas para Cadastrados) é ter autonomia de verdade e gente boa do seu lado. Aqui, todo mundo tem espaço pra fazer acontecer e ver o resultado do próprio trabalho chegando na vida de milhares de famílias brasileiras. Acreditamos em um ambiente leve, diverso e colaborativo, onde a troca é constante e o crescimento vem junto com o time.Temos escritórios em São Paulo e Belo Horizonte, mas nosso time está espalhado por todos os cantos do Brasil - e é justamente essa mistura de histórias e perspectivas que fortalece tudo o que construímos juntos.Somos a maior insurtech do Brasil, e nossos valores guiam cada passo da nossa jornada:

  • O melhor para os nossos clientes, sempre: colocamos clientes e parceiros(as) no centro de tudo, buscando entregar a melhor experiência.

  • Somos tão bons quanto as nossas pessoas: valorizamos um ambiente de confiança, onde todo mundo rema junto e tem espaço pra evoluir.

  • Inconformistas por natureza: não nos contentamos com o básico. Questionamos, testamos e criamos o novo.

  • A postos e dispostos: encaramos desafios com atitude, resiliência, disciplina e leveza, sem nos acomodar.

Se você busca propósito, liberdade pra criar e um time que joga junto, seu lugar pode ser aqui.

Sobre a Vaga

A AiRE é a disciplina do time de AIOps da Confidencial (Apenas para Cadastrados) responsável pela confiabilidade das nossas aplicações de IA. Inspirada no conceito de SRE, mas aplicada ao universo dos modelos de linguagem e agentes inteligentes: aqui, não basta o sistema estar no ar — ele precisa estar certo.

Com varias aplicações de IA em produção atendendo clientes, corretores e times internos, garantir que essas respostas sejam corretas, consistentes e rastreáveis virou uma necessidade estratégica. A AiRE existe para tratar essa nova classe de problema de forma estruturada: monitorando sinais como Hallucination Score e feedback de usuários, investigando a origem dos erros, mantendo pipelines de testes automatizados e construindo o tooling que escala essa validação para toda a empresa.

Mais do que uma área de qualidade, a AiRE é a função que torna possível escalar IA com responsabilidade na Confidencial (Apenas para Cadastrados) — transformando confiabilidade em uma capacidade institucional, com método, métrica e processo.

Como AIRe Senior você será responsável por:

  • Investigar erros em produção — Monitorar interações flagadas por Hallucination Score alto ou dislikes de usuários, analisar o grounding (qual documento e trecho foram consultados) e diagnosticar se o erro está no documento, no grounding ou na aplicação.

  • Separar problemas por camadas — Identificar com precisão a origem de cada erro e encaminhar diretamente ao responsável correto

  • Criar e manter pipelines de testes automatizados — Mapear os tópicos e perguntas mais frequentes por domínio (Subscrição, Sinistro, FAQ, RH, etc.) e construir suites de testes de regressão que rodam automaticamente a cada deploy ou atualização de documento.

  • Monitorar atualizações de documentos — Receber notificações quando Knowledge Stewards atualizam bases de conhecimento, rodar testes de regressão para garantir que nada quebrou, e aplicar testes manuais com as novas informações para validar a extração correta.

  • Construir a plataforma de testes de IA — Desenvolver a infraestrutura e tooling que vai permitir escalar a validação de qualidade para todas as aplicações de IA da empresa.

  • Gradualmente assumir a carga de testes dos times de negócio — Hoje, times diversos realizam testes manuais. Conforme você amadurece a plataforma, a responsabilidade de validação migra para automação e sai dos times de negócio.

Gerar dados e insights para evolução dos agentes — Seus diagnósticos e métricas vão alimentar a camada estratégica (PO de IA) com padrões de erros, áreas de maior risco e oportunidades de melhoria estrutural dos agentes.

Importante você saber/ter:

  • Experiência sólida com LLMs e aplicações de IA generativa em produção — É importante ter vivido os problemas reais de modelos alucinando, grounding falhando e respostas inconsistentes.

  • Conhecimento prático de RAG (Retrieval-Augmented Generation) e sistemas de grounding — entender como documentos são indexados, como chunks são recuperados, e onde esse pipeline pode falhar.

  • Experiência com criação de testes automatizados e pipelines de CI/CD — você vai construir suítes de teste que rodam a cada deploy, precisa saber estruturar isso.

  • Familiaridade com métricas de qualidade de IA: Hallucination Score, faithfulness, relevance, answer correctness e métricas de avaliação de LLMs (frameworks como RAGAS, DeepEval ou similares).

  • Habilidade de investigação e diagnóstico técnico — capacidade de pegar uma resposta errada, rastrear o grounding, identificar o documento consultado, o trecho extraído, e determinar onde está o problema.

  • Conhecimento em Python ou outra linguagem de desenvolvimento para automação de testes, scripts de validação e integração com ferramentas de observabilidade.

  • Experiência com observabilidade de IA — ferramentas como LangFuse, LangSmith, Vertex AI ou similares para monitoramento de traces e métricas de agentes.

Boa comunicação para interagir com times de negócio — você vai falar com Knowledge Stewards, PMs e Donos de Produto. Precisa saber traduzir problemas técnicos em linguagem acessível e entregar diagnósticos mastigados.

Seria legal se você tivesse:

  • Experiência com SRE (Site Reliability Engineering) ou práticas de reliability em software — a filosofia é a mesma, aplicada a IA.

  • Familiaridade com Google Cloud Platform (GCP): Vertex AI, BigQuery, Cloud Run, Pub/Sub — nosso stack principal.

  • Experiência com n8n ou ferramentas de automação de workflows — usamos extensivamente para orquestração de agentes.

  • Conhecimento de Gemini e/ou Claude como modelos base — são os modelos que usamos nas nossas aplicações.

  • Experiência prévia em seguros ou fintechs — entender o domínio ajuda muito na hora de avaliar se uma resposta faz sentido pro negócio.

  • Familiaridade com Google ADK (Agent Development Kit) ou frameworks de multi-agentes.

  • Ter trabalhado com prompt engineering em contextos de produção — entender como a construção do prompt impacta a qualidade das respostas.

  • Conhecimento de testes de regressão específicos para IA — saber que testar um modelo não é a mesma coisa que testar uma API determinística, e ter estratégias para lidar com a variabilidade das respostas.

  • Mentalidade de construtor — essa é uma posição de criação, não de operação estabilizada. Você vai definir processos que ainda não existem.

Benefícios que fazem parte da jornada na Confidencial (Apenas para Cadastrados)

Saúde e bem-estar

  • :hospital: Plano de saúde nacional (apartamento), com opção de incluir dependentes — tudo com o suporte da Pipo.

  • :risadinha: Plano odontológico.

  • :mulher_em_posição_de_lótus: TotalPass e Wellhub, para equilibrar corpo e mente.

  • :escudo: Seguro de vida, trazendo mais tranquilidade para você e sua família.

Família em primeiro lugar

  • :amamentando: Licença-maternidade estendida.

  • :homem_alimentando_bebê: Licença-paternidade estendida.

  • :bebê: Auxílio-creche para apoiar quem tem filhos.

Desenvolvimento e carreira

  • :livros: EducConfidencial (Apenas para Cadastrados): apoio para o desenvolvimento dos nossos Azonautas.

  • :estrela: Stock Options como forma de reconhecimento — concedido conforme elegibilidade.

Dia a dia mais prático

  • :prato_garfo_faca: iFood Benefícios: Vale-refeição e alimentação e Clube Ifood

  • :desktop: Auxílio-setup para ajudar na estrutura do seu espaço de trabalho.

  • :pílula: Descontos em Farmácias.


BUSCAS DE VAGAS SEMELHANTES