* Salário: R$ 11.000 a R$ 20.000 por mês (estimado)
* O valor exibido é uma estimativa calculada com base em dados públicos e referências do mercado. Não garantimos que este seja o salário oferecido para esta vaga específica.
Área: Tecnologia da Informação
Nível: Senior
A primeira coisa que você precisa saber é que aqui você não vai cair na rotina. A Confidencial (Apenas para Cadastrados) desenvolve soluções para empresas de diferentes setores e indústrias. Cada projeto tem suas tecnologias, soluções e prazos e você terá oportunidade de atuar e experimentar diferentes desafios. Além da nossa atuação pelo Brasil, com escritório no Rio de janeiro, São Paulo e Belo Horizonte, temos também filiais nos Estados Unidos, fazendo com que a Confidencial (Apenas para Cadastrados) se consolide cada vez mais como uma empresa global.
Quer fazer parte dessa história e transformar ideias e sonhos em realidade?
Como Cientista de Dados você vai:
Avaliar e implementar soluções baseadas em LLMs (open-source ou APIs comerciais como OpenAI, Azure OpenAI, Anthropic, Cohere etc.).
· Apoiar na estruturação e evolução de plataformas de GenAI internas (chatbots, copilots, RAG, assistentes de produtividade).
· Trabalhar com arquiteturas de Retrieval-Augmented Generation (RAG), prompt engineering, fine-tuning e embeddings.
· Integrar LLMs com sistemas internos e dados proprietários de forma segura e escalável.
· Definir padrões de governança, rastreabilidade e uso responsável da IA generativa.
· Atuar junto a equipes de produto e desenvolvimento para incorporar IA generativa em jornadas e fluxos de trabalho.
· Apoiar iniciativas de segurança, conformidade e mitigação de riscos ligados ao uso de IA.
· Promover a disseminação de conhecimento e boas práticas de uso da IA na organização.
· Projetar e operar pipelines de ingestão/ELT (batch e streaming) a partir de múltiplas fontes (APIs REST/Graph, arquivos, bancos relacionais/NoSQL, mensageria).
· Orquestrar fluxos de dados com Airflow/Dagster/Prefect e, quando aplicável, CDC (ex.: Debezium).
· Modelar dados e padronizar formatos (Parquet/Delta), organizando camadas Bronze/Silver/Gold em data lakes (ex.: S3/ADLS) e/ou warehouses.
· Implementar catálogos, linhagem e contratos de dados (ex.: OpenMetadata/Amundsen; testes de qualidade com Great Expectations).
· Construir e manter pipelines de vetorização e indexação (pgvector, Pinecone, Weaviate, Milvus), incluindo estratégias de refresh/reindex e re-ranking.
· Configurar conectores e parsing de documentos (OCR e extração de PDF/Office com Unstructured, Azure Form Recognizer, etc.).
· Instrumentar observabilidade ponta a ponta (logs, métricas, traces) e otimização de custo/latência em serviços GenAI e dados.
Requisitos necessários para a vaga
· Experiência comprovada com aplicações de IA generativa, especialmente LLMs (incluindo RAG).
· Conhecimento prático em uso de APIs de LLMs (OpenAI, Azure OpenAI, Cohere, HuggingFace, etc.).
· Familiaridade com técnicas de prompt engineering e/ou fine-tuning (LoRA/PEFT).
· Experiência em projetos com dados não estruturados (textos, documentos, etc.).
· Experiência com ferramentas como LangChain, LlamaIndex ou equivalentes.
· Experiência com frameworks de agentes de IA (LangGraph, Semantic Kernel, etc.).
· Conhecimento em vetorização de dados e uso de bancos de vetor (Pinecone, Weaviate, Milvus, FAISS, pgvector etc.).
· Sólida experiência em Engenharia de Dados: ingestão/ELT, modelagem, qualidade e linhagem; pipelines batch/stream; mensageria (Kafka/Event Hubs).
· Domínio de Python e SQL para prototipação e deploy; integração com APIs REST/Graph e pipelines de dados.
· Vivência com orquestradores (Airflow/Dagster/Prefect) e organização de dados em Parquet/Delta (camadas Bronze/Silver/Gold) em S3/ADLS.
· Prática com CI/CD (GitHub Actions/Azure DevOps), IaC (Terraform) e execução em cloud (Azure e/ou AWS) - preferencialmente em serviços gerenciados (App Service, ECS Fargate).
· Conhecimentos de segurança e governança (PII/DLP, RBAC/OIDC - ex.: Keycloak/Azure AD, criptografia, auditoria).
Requisitos desejáveis para a vaga
· Experiência com modelos open source (Mistral, LLaMA, Qwen, etc.) e servidores de inferência (vLLM/TGI).
· Familiaridade com MLOps e deploy/monitoramento de modelos em produção.
· Experiência com Spark/Databricks, dbt, DuckDB e/ou CDC (Debezium).
· Uso de catálogo/linhagem e testes de dados (OpenMetadata/Amundsen; Great Expectations).
· Conhecimento sobre ética e riscos da IA (bias, alucinação, privacidade).
· Inglês técnico.
Benefícios:
- Assistência Médica Nacional (para o titular e dependentes, com quarto privativo)
- Assistência odontológica nacional (para o titular e dependentes)
- Vale refeição / alimentação flexível
- Auxílio home office
- Day off (no mês do aniversário)
- Wellhub (antigo Gympass)
- Licença Maternidade (6 meses) e Paternidade (20 dias) estendidas
- Auxílio creche para filhos de até 3 anos (por filho)
- Apoio em saúde mental com a Wellz
- Clube de Vantagens com descontos em diversos parceiros
- Convênio com instituições de ensino e cursos de idioma
- Desenvolvimento Profissional (Universidade Corporativa)
- Parceria com empresa de coworkings no Brasil
- Programa de Qualidade de Vida e Bem-Estar
- Médico consultor para acompanhamento de Confidencial (Apenas para Cadastrados)ers
- Planos de incentivos
A Confidencial (Apenas para Cadastrados) está sempre no topo das Melhores Empresas para se trabalhar porque:
- Temos profissionais comprometidos, dedicados, curiosos e inovadores.
- O espírito de equipe é a nossa maior força. Trabalhamos de forma cooperativa e sabemos que estamos juntos, remando na mesma direção.
- Temos um ambiente diverso, que valoriza equidade e inclusão.
- Nossa jornada de trabalho é flexível e em quase todos os projetos é possível trabalhar de qualquer lugar do Brasil.
- Valorizamos o bem-estar e o cuidado com as nossas pessoas, com programas de apoio à saúde mental, psiquiatra e médico consultor disponíveis.
Curtiu?
#VemPraConfidencial (Apenas para Cadastrados)
