Derevo

Data Engineer – Databricks

Derevo

full-time

Posted on:

Location Type: Remote

Location: Remote • 🇲🇽 Mexico

Visit company website
AI Apply
Apply

Job Level

Mid-LevelSenior

Tech Stack

ApacheAzureETLPySparkPythonSparkSQLUnity

About the role

  • Serás pieza clave para crear e implementar arquitecturas modernas de datos con alta calidad, impulsando soluciones analíticas basadas en tecnologías de Big Data.
  • Diseñarás, mantendrás y optimizarás sistemas de multiprocesamiento paralelo, aplicando las mejores prácticas de almacenamiento y gestión en data warehouses, data lakes y lakehouses.
  • Recolectarás, procesarás, limpiarás y orquestarás grandes volúmenes de datos, entendiendo modelos estructurados y semi–estructurados, para integrar y transformar múltiples fuentes con eficacia.
  • Definirás la estrategia óptima según objetivos de negocio y requerimientos técnicos, convirtiendo problemas complejos en soluciones alcanzables que ayuden a nuestros clientes a tomar decisiones basadas en datos.
  • Te integrarás al proyecto, sus sprints y ejecutarás las actividades de desarrollo aplicando siempre las mejores prácticas de datos y las tecnologías que implementamos.
  • Identificarás requerimientos y definirás el alcance, participando en sprint planning y sesiones de ingeniería con una visión de consultor que aporte valor extra.
  • Colaborarás proactivamente en workshops y reuniones con el equipo interno y con el cliente.
  • Clasificarás y estimarás actividades bajo metodologías ágiles (épicas, features, historias técnicas/usuario) y darás seguimiento diario para mantener el ritmo del sprint.
  • Cumplirás las fechas de entrega comprometidas y gestionarás riesgos comunicando desviaciones a tiempo.

Requirements

  • Manejo del idioma inglés a nivel intermedio/avanzado (Conversaciones técnicas y de negocios, B2+ o C1)
  • Experiencia en:
  • - Lenguajes de Consulta y Programación: T-SQL / Spark SQL: DDL y DML, consultas intermedias y avanzadas (subconsultas, CTEs, joins múltiples con reglas de negocio), agrupación y agregación (GROUP BY, funciones de ventana, métricas de negocio), procedimientos almacenados para ETL/ELT, optimización de índices, estadísticas y planes de ejecución para procesos masivos
  • - Python (PySpark): Programación orientada a objetos (clases, módulos), gestión de estructuras y tipos de datos (variables, listas, tuplas, diccionarios), control de flujo mediante condicionales y bucles, ingestión de datos estructurados y semiestructurados, desarrollo de DataFrames y UDFs, ventanas temporales y particionado para optimización, buenas prácticas de código (PEP8, modularidad)
  • - Databricks: Apache Spark & DataFrame API: Diseño de pipelines que aprovechan la API de DataFrames para transformaciones masivas; uso de funciones declarativas y expresiones vectorizadas.
  • - Delta Lake: Administración de tablas Delta con ACID transactions, time travel para auditoría y partition pruning para lecturas eficientes dentro de la medallion architecture.
  • - Autoloader & Data Ingestion: Configuración de ingesta incremental en OneLake o ADLS Gen2 con Auto Loader, captura de cambios de esquema (schema evolution) y checkpointing para garantizar exactly-once delivery sin código adicional.
  • - Structured Streaming: Orquestación de flujos en tiempo real con triggers event-time y processing-time, watermarking y operaciones stateful para baja latencia y tolerancia a fallos.
  • - Delta Live Tables (DLT): Declaración de pipelines ETL/ELT en SQL o Python con calidad de datos integrada (Expectations), manejo automático de dependencias y monitoreo continuo.
  • - Performance Optimization: Técnicas de caching, broadcast joins, shuffle optimizations y uso de formatos columnar (Parquet/Delta) con Z-Ordering y OPTIMIZE para reducir tiempos de procesamiento.
  • - Lakehouse Federation: Consulta unificada sobre fuentes externas a través de Unity Catalog; Jobs & Workflows: Creación de pipelines multietapa con dependencias, retries automáticos, scheduling o llegada de datos; integración con Azure Data Factory si es necesario.
  • - Repos & CI/CD: Versionado de notebooks y scripts en GitHub/Azure DevOps, configuración de pipelines de validación (unitarias y de esquema) y despliegue automatizado en entornos dev-test-prod.
  • - Monitoreo y Observabilidad: Alertas mediante notificaciones de jobs de Workflows ante eventos como fallos y generación de alertas proactivas automatizadas.
Benefits
  • WELLNESS: Impulsaremos tu bienestar integral a través del equilibrio personal, profesional y económico, Nuestros beneficios de ley y adicionales te ayudarán a lograrlo.
  • LET´S RELEASE YOUR POWER: Tendrás la oportunidad de especializarte de manera integral en diferentes áreas y tecnologías, logrando así un desarrollo interdisciplinario.
  • WE CREATE NEW THINGS: Nos gusta pensar fuera de la caja. Tendrás el espacio, confianza y libertad para crear y la capacitación que se requiera para lograrlo.
  • WE GROW TOGETHER: Participarás en proyectos tecnológicos punteros, multinacionales y con equipos extranjeros.

Applicant Tracking System Keywords

Tip: use these terms in your resume and cover letter to boost ATS matches.

Hard skills
T-SQLSpark SQLPythonPySparkDatabricksDelta LakeStructured StreamingDelta Live TablesPerformance OptimizationLakehouse Federation
Soft skills
comunicacióncolaboracióngestión de riesgosorganizaciónconsultoríaresolución de problemasproactividadadaptabilidadtrabajo en equipoplanificación
Derevo

Data Engineer – MS Fabric

Derevo
Mid · Seniorfull-time🇲🇽 Mexico
Posted: 3 hours agoSource: derevo.bamboohr.com
PySparkPythonSparkSQL
Truelogic Software

Senior Data Engineer – Sales Intelligence

Truelogic Software
Seniorcontract🇲🇽 Mexico
Posted: 7 hours agoSource: jobs.ashbyhq.com
AirflowAmazon RedshiftAWSBigQueryCloudETLGoogle Cloud PlatformNoSQLPythonSQL
Bluelight

Data Engineer

Bluelight
Mid · Seniorfull-time🇲🇽 Mexico
Posted: 2 days agoSource: jobs.lever.co
Amazon RedshiftAWSCloudEC2InformaticaLinuxMySQLOraclePostgresRDBMSSOAPSQL+1 more
3Pillar Global

Data Architect, GCP

3Pillar Global
Senior · Leadfull-time🇲🇽 Mexico
Posted: 3 days agoSource: jobs.lever.co
BigQueryCloudETLGoogle Cloud PlatformPythonSQL