
Engenheiro de Dados
Revise Group
full-time
Posted on:
Location Type: Hybrid
Location: Campinas • Brazil
Visit company websiteExplore more
Tech Stack
About the role
- Construção e manutenção de pipelines (ETL/ELT)
- Coletar dados de diferentes fontes (APIs, bancos relacionais, logs, arquivos, eventos).
- Transformar e padronizar dados (limpeza, deduplicação, enriquecimento, regras de negócio).
- Carregar dados em destinos analíticos (Data Warehouse/Lakehouse/Data Lake).
- Orquestrar rotinas (agendamento, dependências, reprocessamento/backfill).
- Modelagem e disponibilização de dados para análise
- Modelagem dimensional (star schema) e/ou modelos normalizados conforme o caso.
- Criação de camadas (raw/bronze, refined/silver, curated/gold).
- Definição de tabelas, particionamento, índices e estratégias de performance/custo.
- Publicação de datasets “prontos para consumo” por BI, produtos e ciência de dados.
- Garantia de qualidade, confiabilidade e observabilidade
- Testes de dados (validação de schema, null checks, ranges, integridade referencial).
- Monitoramento de pipelines (SLA, latência, volume, falhas, dados atrasados).
- Linhagem (data lineage) e catálogo/documentação de dados.
- Tratamento de incidentes e análise de causa raiz.
- Colaboração com outras áreas
- Trabalhar com analistas de dados, cientistas, engenheiros de software e stakeholders.Traduzir necessidades do negócio em contratos de dados (definições, métricas, SLAs).
Requirements
- Domínio de negócio (entender métricas e impacto).
- Capacidade de reduzir custo e melhorar performance (otimização de queries e storage).
- Boas práticas de observabilidade (monitoramento, alertas úteis, SLAs claros).
- Boa comunicação e documentação (datasets bem descritos e fáceis de reutilizar
- SQL avançado: joins complexos, window functions, CTEs, otimização, modelagem.
- Python (ou Scala/Java): processamento, integrações, automação, testes.
- Estruturas de dados, noções de sistemas distribuídos e performance.
- Bancos relacionais: PostgreSQL/SQL Server, Athena, Redshift
- Data Warehouses/Lakehouses (conceitos e uso): particionamento, clustering, custos.
- Formatos de dados: Parquet/Avro/ORC, compressão, schema evolution.
- Ferramentas de orquestração: Airflow, Dagster, Prefect (ou equivalentes).
- Transformação/analytics engineering: dbt (muito comum).
- Processamento distribuído: Spark (PySpark), e alternativas conforme o stack.
- Kafka/Kinesis/PubSub, processamento de eventos.
- CDC (Change Data Capture) e desenho de pipelines near-real-time.
- Conceitos de cloud: redes, IAM, storage, computação.
- Infra como código: Terraform.
- Containers e deploy: Docker (e às vezes Kubernetes).
- CI/CD para pipelines e modelos (tests, lint, deploy controlado).
- Testes e validação: Great Expectations, dbt tests, checagens customizadas.
- Boas práticas de segurança: least privilege, segregação, auditoria.
Benefits
- Estacionamento
- Consumir nossos produtos com desconto
- Refeitório - Café da Manhã e Almoço
- Cartão Flex
Applicant Tracking System Keywords
Tip: use these terms in your resume and cover letter to boost ATS matches.
Hard skills
ETLELTSQLPythonScalaJavaData WarehousesData LakehousesData transformationData modeling
Soft skills
business acumencommunicationcollaborationdocumentationproblem-solvingperformance optimizationquality assuranceobservabilityincident managementstakeholder engagement