
Site Reliability Engineer
Stefanini LATAM
full-time
Posted on:
Location Type: Hybrid
Location: Bogotá, D.C. • Colombia
Visit company websiteExplore more
About the role
- El Data & Site Reliability Engineer Senior es responsable de garantizar la confiabilidad, estabilidad y operación continua de las plataformas de datos y servicios analíticos de la organización.
- Este rol combina las mejores prácticas de Site Reliability Engineering (SRE) y Data Reliability Engineering (DRE), enfocándose en la prevención de incidentes, automatización de procesos, reducción del tiempo de recuperación ante fallos (MTTR) y mejora de la experiencia operativa de extremo a extremo.
- Lidera la definición y gobierno de indicadores de servicio (SLIs/SLOs) como frescura, completitud, latencia, confiabilidad y disponibilidad, impulsando la evolución hacia modelos operativos IOps y NoOps.
Requirements
- Mínimo 2 años o más de experiencia en roles de SRE, DRE, DevOps o ingeniería de plataformas de datos en ambientes productivos.
- Experiencia comprobable liderando incidentes críticos y proyectos de automatización en entornos de datos.
- 2+ años de experiencia en roles SRE, DRE, DataOps o Platform Engineering
- Dominio de Apache Airflow: gestión de DAGs, depuración, optimización de pipelines
- Experiencia con dbt (data build tool): modelos, pruebas, linaje de datos
- Conocimiento de Amazon Redshift: administración, optimización de consultas, WLM
- Manejo de Grafana + Prometheus: dashboards, alertas, PromQL
- Experiencia con OpsGenie o herramienta equivalente de gestión de alertas
- Conocimiento de AWS Glue, Lambda, CloudWatch
- Familiaridad con metodologías SRE: error budgets, SLOs, SLIs, SLAs
- Experiencia con Jira Service Management o herramienta ITSM equivalente.
Benefits
- No se especifican beneficios en el anuncio.
Applicant Tracking System Keywords
Tip: use these terms in your resume and cover letter to boost ATS matches.
Hard Skills & Tools
Site Reliability EngineeringData Reliability EngineeringDevOpsDataOpsPlatform EngineeringApache AirflowdbtAmazon RedshiftGrafanaPrometheus
Soft Skills
leadershipincident managementautomationoperational improvement