* Salário: R$ 3.000 a R$ 6.000 por mês (estimado)
* O valor exibido é uma estimativa calculada com base em dados públicos e referências do mercado. Não garantimos que este seja o salário oferecido para esta vaga específica.
Área: Tecnologia da Informação
Nível: Junior
ENGENHEIRO DE DADOS SÊNIOR (Remoto)
SOBRE A Confidencial (Apenas para Cadastrados):
A Confidencial (Apenas para Cadastrados) Intelligence é uma plataforma que, por meio de Inteligência Artificial, consolida dados das maiores plataformas de vídeo do mundo e te permite analisar, entender e criar estratégias data-driven de conteúdos em vídeo para transformar a sua fábrica de conteúdo, estar à frente da concorrência e se conectar verdadeiramente com a sua audiência. Na Confidencial (Apenas para Cadastrados), somos apaixonados pelo nosso trabalho, sonhamos grande e buscamos sempre agir e pensar muito além de qualquer caixa. Somos, acima de tudo, um time. Afinal, quando diferentes talentos se unem em torno de um mesmo objetivo e compartilham conhecimento, coisas incríveis acontecem. É isso que buscamos viver todos os dias.
#BeAWinner
SOBRE O TIME:
Nossa plataforma captura dados de diversas APIs e usa inteligência artificial para extrair insights para nossos usuários a partir dele. Na área de engenharia de dados, capturamos milhões de dados diariamente, que devem estar disponíveis para os nossos clientes o mais rápido possível (próximo de tempo real). O desafio desse time é criar e manter centenas de pipelines que capturam, classificam e transformam milhões de dados diariamente tudo isso em tempo real e tornando o acesso facilitado para o nosso cliente e para que o nosso time de ciência de dados crie os modelos a partir deles. Temos também o desafio de fazer isso prezando pela segurança e privacidade dos nossos dados.
O QUE ESPERAMOS DE VOCÊ:
Graduação em Ciência da Computação, Engenharia de Software ou áreas correlatas;
Bons conhecimentos de programação em Python (requests, httpx, asyncio) ou Node.js (axios, puppeteer, crawlee);
Experiência com desenvolvimento de web scrapers ou crawlers, tanto via API quanto via parsing de HTML;
Familiaridade com inspeção de chamadas de rede (Developer Tools / Network) para análise de APIs e engenharia reversa;
Conhecimento avançado de SQL para modelagem e análise de dados;
Noção geral de como estruturar pipelines de dados (ETL) e lidar com armazenamento de dados (ex.: Parquet, JSON, bancos relacionais);
Experiência com ferramentas de orquestração e workflow, como Prefect, Airflow ou Temporal, para execução confiável de pipelines e processos de longa duração;
Alguma experiência com ambientes de nuvem (AWS, GCP, Azure) para rodar crawlers e pipelines;
Atenção à qualidade dos dados coletados e capacidade de manter o funcionamento dos crawlers.
DIFERENCIAIS QUE TE DESTACAM:
Experiência prática com automação de browsers com Playwright, Selenium ou ferramentas similares;
Experiência sólida com rotacionamento de proxies, bypass de rate limits e estratégias anti-bloqueio (ex.: proxy rotation, captchas);
Ter atuado com ferramentas de scraping avançadas (Scrapy, Crawlee etc.);
Experiência com engenharia reversa de APIs privadas e análise profunda de chamadas de rede;
Experiência com manutenção e operação de crawlers em produção;
Conhecimento em ferramentas de modelagem e transformação de dados como DBT;
Conhecimentos de processamento paralelo com Spark ou ferramentas similares;
Participação em projetos open source ou acadêmicos relacionados a scraping, automação ou engenharia de dados;
Mestrado/doutorado em área relacionada.
COMO SERÁ SEU DIA A DIA:
Desenvolver e manter crawlers e scrapers de diferentes complexidades (API e HTML);
Mapear novas fontes de dados externas e avaliar a viabilidade técnica de coleta;
Automatizar fluxos de coleta de dados em larga escala;
Ajustar e adaptar scrapers conforme mudanças nos sites;
Garantir a qualidade e atualização contínua dos crawlers;
Processar e organizar os dados coletados para integração aos pipelines de dados;
Trabalhar em conjunto com o time para resolver problemas de negócios e entregar dados confiáveis.
SOFT SKILL:
Capacidade de analisar problemas complexos e estruturar a solução em etapas;
Vontade de aprender continuamente;
Capacidade analíca para resolver problemas complexos;
Habilidade de executar trabalho de forma colaborativa;
Capacidade de comunicar as soluções desenvolvidas para público não técnico;
Transmitir conhecimento adquirido para o time.
