* Salário: R$ 11.000 a R$ 20.000 por mês (estimado)

* O valor exibido é uma estimativa calculada com base em dados públicos e referências do mercado. Não garantimos que este seja o salário oferecido para esta vaga específica.

Área: Tecnologia da Informação

Nível: Senior

Sobre a Confidencial (Apenas para Cadastrados):

A Confidencial (Apenas para Cadastrados) é a maior rede de escritórios flexíveis por assinatura da América Latina. Nosso modelo oferece às empresas a flexibilidade de adaptar suas estruturas de escritório ao estágio de crescimento atual ou ao modelo de trabalho ideal. Estamos transformando a forma como empresas gerenciam espaços de trabalho, fornecendo soluções que otimizam o uso de salas de reunião, salas privativas e workstations com inteligência de ocupação e personalização avançada.

Sobre a posição:

Buscamos um(a) Data Engineer experiente para colaborar no desenvolvimento de soluções de inteligência artificial na Confidencial (Apenas para Cadastrados). O profissional será essencial na criação de pipelines de dados robustas, an gestão de data lakes e data warehouses, e na preparação dos dados para treinamento e avaliação dos modelos. Além disso, o profissional colaborará ativamente com o AI Engineer na definição das necessidades de dados e na otimização dos processos. O Data Engineer garantirá que os dados estejam sempre disponíveis, na forma correta e com a qualidade necessária para o desenvolvimento de soluções de inteligência artificial de ponta. Se você deseja trabalhar em projetos desafiadores que impactam diretamente nossos clientes, essa oportunidade é para você.

Responsabilidades:

Engenharia & Pipelines de Dados
- Construir e manter pipelines de dados escaláveis com dbt, Python e SQL, aplicando boas práticas de modelagem, versionamento e governança.
- Desenvolver processos ETL/ELT para dados estruturados e não estruturados, garantindo qualidade e consistência ponta a ponta.
- Estruturar datasets otimizados para análises avançadas, produtos e modelos de machine learning.
Orquestração & Processamento
- Projetar e operar pipelines usando Airflow, Dagster ou Prefect.
- Implementar fluxos batch e, quando necessário, pipelines streaming (Kafka/Kinesis) para ingestão contínua.
- Gerenciar SLAs, observar performance e antecipar falhas ou gargalos operacionais.
Cloud & Infraestrutura (AWS)
- Provisionar e administrar infraestrutura de dados na AWS (S3, Lambda, Glue, Athena, Fargate/ECS, Step Functions).
- Criar pipelines containerizados com Docker e, quando aplicável, gerenciar workloads em Kubernetes.
- Garantir escalabilidade, segurança, otimização de custos e observabilidade.
Data Lakehouse & Armazenamento
- Construir e manter data lakes e data warehouses modernos (Redshift, Snowflake ou equivalentes).
- Operar lakes otimizados para machine learning (Iceberg, Delta Lake) e estruturar tabelas para consumo eficiente.
- Criar camadas de dados limpas, organizadas e acessíveis para diferentes times e produtos.
Coleta & Ingestão de Dados
- Integrar dados via APIs REST/GraphQL, webhooks e conectores (Airbyte, Fivetran).
- Realizar web scraping quando necessário, utilizando frameworks como Scrapy, BeautifulSoup ou Playwright.
- Aplicar processamento de documentos (PDF, HTML, imagens) usando ferramentas modernas (como Unstructured.io).
Preparação de Dados & Feature Engineering
- Realizar limpeza, enriquecimento e transformação de dados para análises, modelos e produtos.
- Criar agregações complexas, features temporais, janelas deslizantes e versionamento de datasets com reprodutibilidade.
- Colaborar com AI Engineers na seleção de features e preparação de dados para modelos.
Pilares AI-first (Desejáveis e valorizados na vaga)
- Experiência ou interesse em construir pipelines para embeddings, chunking e preparação de dados para RAG.
- Familiaridade com vector databases (Pinecone, Qdrant, Weaviate) e estratégias de indexação.
- Entendimento dos trade-offs entre batch, streaming e event-driven para sistemas com modelos.
- Noções de tokenização, caching, inferência eficiente e preparação de documentos para modelos generativos.
Monitoramento & Confiabilidade
- Implementar observabilidade, data quality e alertas automatizados para freshness, schema drift e data drift.
- Monitorar performance e custo dos pipelines, propondo otimizações estruturais.
- Garantir confiabilidade e estabilidade da camada de dados em ambientes de produção.

Requisitos Técnicos Obrigatórios:

Sólida experiência em linguagens de programação como Python e SQL.
Conhecimento profundo de ferramentas e frameworks de engenharia de dados, como Spark, Airflow, Kafka e DBT.
Experiência com bancos de dados relacionais e não relacionais (SQL, NoSQL).
Conhecimento de cloud platforms (AWS) e serviços de big data.
Conhecimento básico de machine learning e deep learning.

Requisitos Comportamentais:

Forte capacidade analítica e de resolução de problemas.
Habilidade de trabalhar em equipe e colaborar com diferentes perfis profissionais.
Pró-atividade e capacidade de aprender novas tecnologias rapidamente.
Foco em resultados e entrega de projetos.

Diferenciais:

Experiência no mercado de real state ou soluções de inteligência de ocupação.
Pós-graduação ou MBA em áreas relacionadas a AI, Data Science ou Machine Learning.
Histórico de publicações ou contribuições em projetos open-source de AI.

O que oferecemos:

Oportunidade de trabalhar na maior rede de escritórios flexíveis por assinatura da América Latina.
Projetos desafiadores e com impacto direto no mercado de real state.
Ambiente colaborativo e cultura de aprendizado contínuo.
Acesso às mais recentes tecnologias e ferramentas de AI/ML.
Remuneração competitiva com possibilidade de participação em equity.

Engenheiro de Dados Sênior