Stefanini LATAM

Site Reliability Engineer

Stefanini LATAM

full-time

Posted on:

Location Type: Hybrid

Location: Bogotá, D.C.Colombia

Visit company website

Explore more

AI Apply
Apply

About the role

  • El Data & Site Reliability Engineer Senior es responsable de garantizar la confiabilidad, estabilidad y operación continua de las plataformas de datos y servicios analíticos de la organización.
  • Este rol combina las mejores prácticas de Site Reliability Engineering (SRE) y Data Reliability Engineering (DRE), enfocándose en la prevención de incidentes, automatización de procesos, reducción del tiempo de recuperación ante fallos (MTTR) y mejora de la experiencia operativa de extremo a extremo.
  • Lidera la definición y gobierno de indicadores de servicio (SLIs/SLOs) como frescura, completitud, latencia, confiabilidad y disponibilidad, impulsando la evolución hacia modelos operativos IOps y NoOps.

Requirements

  • Mínimo 2 años o más de experiencia en roles de SRE, DRE, DevOps o ingeniería de plataformas de datos en ambientes productivos.
  • Experiencia comprobable liderando incidentes críticos y proyectos de automatización en entornos de datos.
  • 2+ años de experiencia en roles SRE, DRE, DataOps o Platform Engineering
  • Dominio de Apache Airflow: gestión de DAGs, depuración, optimización de pipelines
  • Experiencia con dbt (data build tool): modelos, pruebas, linaje de datos
  • Conocimiento de Amazon Redshift: administración, optimización de consultas, WLM
  • Manejo de Grafana + Prometheus: dashboards, alertas, PromQL
  • Experiencia con OpsGenie o herramienta equivalente de gestión de alertas
  • Conocimiento de AWS Glue, Lambda, CloudWatch
  • Familiaridad con metodologías SRE: error budgets, SLOs, SLIs, SLAs
  • Experiencia con Jira Service Management o herramienta ITSM equivalente.
Benefits
  • No se especifican beneficios en el anuncio.
Applicant Tracking System Keywords

Tip: use these terms in your resume and cover letter to boost ATS matches.

Hard Skills & Tools
Site Reliability EngineeringData Reliability EngineeringDevOpsDataOpsPlatform EngineeringApache AirflowdbtAmazon RedshiftGrafanaPrometheus
Soft Skills
leadershipincident managementautomationoperational improvement