Tech Stack
AnsibleAWSCloudDockerGrafanaGroovyKafkaKubernetesLinuxMySQLOraclePrometheusPythonSplunkTerraform
About the role
- Diseñar, implementar y gestionar frameworks de observabilidad para sistemas confiables, escalables y de alto rendimiento
- Construir y operar plataformas de observabilidad de extremo a extremo utilizando Prometheus, Grafana, AppDynamics, Splunk, Kibana y herramientas AIOps
- Desarrollar y optimizar dashboards (single-pane-of-glass) alineados con procesos críticos del negocio
- Configurar y ajustar mecanismos de alertas (thresholds, composite alerts, reducción de ruido)
- Aplicar detección de anomalías basada en ML para monitoreo proactivo y prevención de incidentes
- Traducir datos de telemetría, dashboards y alertas en insights claros de negocio, comunicándolos en inglés para equipos globales
- Liderar y apoyar la gestión de incidentes, RCA y post-mortems, implementando mejoras para prevenir recurrencias
- Crear dashboards correlacionados para ofrecer visibilidad de extremo a extremo desde solicitudes externas hasta aplicaciones internas
- Colaborar con equipos de desarrollo para integrar prácticas de resiliencia y observabilidad en los servicios
- Establecer mejores prácticas en monitoreo, alertas, automatización y optimización de desempeño
- Automatizar flujos operativos para reducir toil, acelerar tiempos de respuesta y mejorar eficiencia
- Asegurar el cumplimiento de estándares de seguridad, gobernanza y normativas en prácticas SRE
- Colaborar con infraestructura, seguridad y desarrollo para fomentar una cultura de mejora continua de confiabilidad
Requirements
- +7 años de experiencia práctica en SRE
- Conocimiento sólido en observabilidad, monitoreo, alertas y automatización
- Experiencia con Prometheus, Grafana, AppDynamics, Splunk, Kibana, SolarWinds
- Experiencia definiendo SLIs/SLOs
- Experiencia en monitoring-as-code y automatización de dashboards
- Experiencia en AWS (Control Tower, RDS, SSO, automatización)
- Experiencia con Docker y Kubernetes
- Experiencia con GitLab CI/CD y Terraform
- Administración de Linux
- Automatización con Ansible, Python, Groovy u otros scripts
- Experiencia con sistemas de mensajería (Kafka, MQ)
- Experiencia con bases de datos (Oracle, MySQL)
- Inglés avanzado conversacional
- Plus: Certificaciones CSRE, CKA, AWS DevOps Engineer Professional, Google Cloud DevOps Engineer
- Contratación directa
- Prestaciones de ley y superiores
- Vales de despensa
- Seguro de vida
- Plan dental
- Fondo de ahorro
- Capacitaciones y más
ATS Keywords
Tip: use these terms in your resume and cover letter to boost ATS matches.
Hard skills
observabilidadmonitoreoalertasautomatizaciónSLIsSLOsmonitoring-as-codeadministración de Linuxsistemas de mensajeríabases de datos
Soft skills
comunicaciónliderazgocolaboraciónmejora continuagestión de incidentes
Certifications
CSRECKAAWS DevOps Engineer ProfessionalGoogle Cloud DevOps Engineer