FREE ACCESS
5,000–10,000 jobs/day

See all jobs on JobTailor
Search thousands of fresh jobs every day.
Discover
- Fresh listings
- Fast filters
- No subscription required
Create a free account and start exploring right away.
Tech Stack
Tools & technologiesAWSCloudDockerJavaScriptKubernetesNode.jsTerraform
About the role
Key responsibilities & impact- Tomar la referencia técnica de observabilidad del equipo: definir estándares de métricas, logs y trazas sobre Datadog.
- Tomar ownership del seguimiento de SLOs/SLIs: coordinar con los squads y mantener el backlog activo.
- Optimizar el uso y los costos de Datadog (monitores, ingesta, APM).
- Trabajar con NOC como cliente interno: generar espacios colaborativos, runbooks y post-mortems.
- Empujar la mejora de métricas de detección y resolución de incidentes.
- Identificar oportunidades de automatización en flujos operativos de NOC: reducción de toil, respuestas automáticas y runbooks ejecutables.
- Explorar y proponer el uso de IA para correlación de alertas, detección de anomalías y reducción de ruido operativo.
- Ser el escalado técnico de NOC cuando lo requieran.
- Troubleshooting de aplicaciones en Kubernetes: disponibilidad, performance y conectividad en producción.
- Leer y entender código Node.js para identificar y proponer mejoras de confiabilidad o performance.
- Participar de la rotación de guardia de infraestructura.
- Responder incidentes, coordinar la resolución y documentar el post-mortem.
- Contribuir a la mejora continua del proceso de guardia.
- Evaluar y optimizar la capacidad y el rendimiento de los sistemas para soportar el crecimiento de la carga.
- Colaborar en pruebas de carga y benchmarking para anticipar cuellos de botella.
- Implementar prácticas de ingeniería de confiabilidad para aumentar la resiliencia de los sistemas.
- Identificar y eliminar puntos únicos de falla.
- Reducir el toil mediante automatización de tareas operativas repetitivas.
- Contribuir al seguimiento y optimización de costos cloud, con foco en la plataforma de observabilidad.
Requirements
What you’ll need- Foco en diagnóstico de incidentes.
- Cultura SRE real: SLIs, error budgets, toil: haberlos aplicado.
- Experiencia en administración y orquestación de contenedores con Kubernetes, valorando el uso de Helm.
- Conocimiento de Node.js: poder leer y entender código de aplicación, identificar problemas y meter mejoras puntuales orientadas a confiabilidad o performance.
- Experiencia o afinidad para trabajar con equipos operativos no técnicos (NOC, operaciones) - capacidad de explicar problemas complejos y generar espacios de mejora.
- Capacidad para moverse en escenarios cambiantes, con mentalidad orientada a resultados y atención al detalle.
- Será deseable que cuentes con:
- Experiencia con Docker, Kubernetes, Istio, AWS EKS, AWS RDS, AWS SQS/SES, CloudFront, AWS S3, Helm.
- Experiencia en flujos de CI/CD en GitHub Actions y gestión de infraestructura con Terraform / Terragrunt.
- Conocimientos en gobernanza de alertas, burn rate múltiple y dashboards de salud por dominio o producto.
- Conocimientos en escalabilidad y elasticidad sobre AWS y aplicaciones hosteadas en Kubernetes.
- Familiaridad con prácticas de FinOps para seguimiento y optimización de costos en AWS.
- Interés o experiencia en AIOps: correlación de alertas, detección de anomalías, automatización de respuestas a incidentes.
- Experiencia trabajando con herramientas de IA y automatización: uso de LLMs para acelerar análisis, scripting inteligente o integración de IA en flujos operativos.
Benefits
Comp & perks- 10 días hábiles de vacaciones + 5 días MODO.
- Prepaga para vos y tu grupo familiar.
- Reintegro en app MODO para almuerzos y traslado.
- Membresía en Gympass y descuento en Sport Club para actividad física.
- Licencias extendidas (por matrimonio, maternidad, paternidad y otras).
- Plataforma de capacitaciones y descuentos en universidades para perfeccionar y expandir tus conocimientos.
- Día de cumpleaños libre y medio día por cumpleaños de hijos/as.
- Actividades de team building.
- Posibilidad de desarrollarte en un ambiente flexible, dinámico y en pleno crecimiento.
ATS Keywords
✓ Tailor your resumeApplicant Tracking System Keywords
Tip: use these terms in your resume and cover letter to boost ATS matches.
Hard Skills & Tools
KubernetesNode.jsDockerAWS EKSAWS RDSAWS S3TerraformGitHub ActionsAIOpsAutomation
Soft Skills
CollaborationProblem-SolvingAttention to DetailCommunication
