Estamos em busca de um(a) Cientista de Dados com perfil técnico voltado à disciplina de engenharia de dados, com experiência na construção de pipelines, ingestão, tratamento e disponibilização de dados, utilizando principalmente ferramentas open source e a plataforma Microsoft Azure.
Este(a) profissional atuará na base da arquitetura de dados, garantindo qualidade, governança e eficiência no fluxo de dados, que serão utilizados em dashboards, modelos preditivos e agentes inteligentes.
Principais Atividades:
- Desenvolver pipelines de dados robustos, utilizando ferramentas open source e serviços da Azure Data Platform (Data Factory, Synapse, Azure Functions, Blob Storage etc.).
- Fazer ingestão, transformação e limpeza de dados provenientes de diversas fontes (APIs, bancos de dados relacionais/NoSQL, arquivos etc.).
- Otimizar e preparar datasets para uso por cientistas de dados, analistas e aplicações de IA.
- Garantir a governança e a rastreabilidade dos dados, documentando processos e mantendo a conformidade com boas práticas.
- Trabalhar com armazenamento escalável de dados, utilizando Azure Data Lake, Delta Lake, e tecnologias como Parquet e Avro.
- Colaborar com os times de Data Science e Engenharia para integrar dados em pipelines de MLOps e aplicações inteligentes.
- Acompanhar tendências em dados e contribuir com melhorias contínuas nas arquiteturas de dados.
Pré requisitos:
- Experiência com plataforma Microsoft Azure, especialmente com serviços de dados (Data Factory, Synapse Analytics, Blob Storage, Azure SQL, Functions).
- Proficiência em Python e bibliotecas open source para manipulação de dados (pandas, NumPy, PySpark).
- Vivência com bancos de dados relacionais e NoSQL (SQL Server, PostgreSQL, MongoDB, etc.).
- Conhecimento em ferramentas de ETL/ELT open source como Apache Airflow, dbt ou similares.
- Familiaridade com arquiteturas baseadas em Lakehouse e uso de formatos como Parquet/Delta.
- Experiência com versionamento e automação de pipelines de dados.
Diferencial:
- Certificações Microsoft Azure na área de dados (ex: DP-203 – Azure Data Engineer Associate).
- Conhecimento em arquiteturas serverless, CI/CD e integração com pipelines de MLOps.
- Experiência com ferramentas de versionamento de dados e experimentos (DVC, MLflow).
- Conhecimento em monitoramento e performance de pipelines em produção.
- Habilidade para trabalhar de forma colaborativa e comunicação clara com áreas técnicas e de negócio.
Enviar currículo para: https://form.cits.br/?filial=1&cod=CDAD&sol=7220