Diseñar, implementar y gestionar frameworks de observabilidad para sistemas confiables, escalables y de alto rendimiento.
Construir y operar plataformas de observabilidad de extremo a extremo utilizando Prometheus, Grafana, AppDynamics, Splunk, Kibana y herramientas AIOps.
Desarrollar y optimizar dashboards (single-pane-of-glass) alineados con procesos críticos del negocio.
Configurar y ajustar mecanismos de alertas (thresholds, composite alerts, reducción de ruido) para garantizar que las alertas sean accionables.
Aplicar detección de anomalías basada en ML para monitoreo proactivo y prevención de incidentes.
Traducir datos de telemetría, dashboards y alertas en insights claros de negocio y comunicarlos en inglés para equipos globales.
Liderar y apoyar la gestión de incidentes, RCA y post-mortems, implementando mejoras para prevenir recurrencias.
Crear dashboards correlacionados para ofrecer visibilidad de extremo a extremo desde solicitudes externas hasta aplicaciones internas.
Colaborar con equipos de desarrollo para integrar prácticas de resiliencia y observabilidad en los servicios.
Establecer mejores prácticas en monitoreo, alertas, automatización y optimización de desempeño.
Automatizar flujos operativos para reducir toil, acelerar tiempos de respuesta y mejorar eficiencia.
Asegurar el cumplimiento de estándares de seguridad, gobernanza y normativas en todas las prácticas SRE.
Colaborar con infraestructura, seguridad y desarrollo para fomentar una cultura de mejora continua de confiabilidad.
Requirements
+7 años de experiencia práctica en SRE con sólido conocimiento en observabilidad, monitoreo, alertas y automatización.
Experiencia con Prometheus, Grafana, AppDynamics, Splunk, Kibana, SolarWinds.
Experiencia definiendo SLIs/SLOs.
Experiencia en monitoring-as-code y automatización de dashboards.
Experiencia en AWS (Control Tower, RDS, SSO, automatización).
Conocimientos en Docker, Kubernetes, GitLab CI/CD, Terraform y administración Linux.
Automatización con Ansible, Python, Groovy u otros scripts para despliegues y provisión de infraestructura.
Experiencia con sistemas de mensajería (Kafka, MQ) y bases de datos (Oracle, MySQL).