FREE ACCESS
5,000–10,000 jobs/day

See all jobs on JobTailor
Search thousands of fresh jobs every day.
Discover
- Fresh listings
- Fast filters
- No subscription required
Create a free account and start exploring right away.
Tech Stack
Tools & technologiesAWSAzureCloudConsulDockerGrafanaJenkinsKubernetesPrometheusPythonTerraform
About the role
Key responsibilities & impact- Diseñar, implementar y mantener infraestructura en AWS y Azure utilizando Terraform o Pulumi.
- Definir la estrategia cloud multi-proveedor de Creai, garantizando que toda la infraestructura sea reproducible, segura y versionada.
- Diseñar y operar pipelines de integración y entrega continua robustos y reutilizables para todos los equipos de ingeniería, soportando despliegues de aplicaciones y modelos de ML/IA con testing automatizado, quality gates y estrategias de rollback.
- Diseñar, desplegar y operar clústeres de Kubernetes en producción (EKS/AKS).
- Gestionar namespaces, RBAC, network policies, Helm/Kustomize y estrategias de escalamiento automático para cargas de trabajo de IA.
- Construir y mantener la plataforma MLOps de Creai: pipelines de entrenamiento, registro y versionado de modelos, despliegue como endpoints escalables y monitoreo de performance en producción.
- Implementar infraestructura especializada para cargas de trabajo de IA generativa, incluyendo gestión de recursos GPU y arquitecturas RAG.
- Ser el principal impulsor de la experiencia del desarrollador: construir herramientas, templates y abstracciones que permitan a los equipos de ingeniería y ciencia de datos enfocarse en crear valor sin fricciones operacionales.
- Incorporar seguridad en todos los niveles de la plataforma: gestión de secretos, IAM, cifrado y cumplimiento de mínimo privilegio.
- Definir y hacer seguimiento de SLAs/SLOs. Liderar la respuesta a incidentes y post-mortems.
- Diseñar para alta disponibilidad y recuperación ante desastres.
- Implementar stacks de observabilidad completos (métricas, logs y trazas) con herramientas como Prometheus, Grafana, Datadog u OpenTelemetry, garantizando visibilidad del estado de todos los servicios y modelos en producción.
- Como primer miembro del equipo de Plataforma, construir no solo la infraestructura sino también la cultura, los procesos y los estándares del equipo.
- Influir activamente en las decisiones arquitectónicas de toda la organización y mentorizar a futuros ingenieros de plataforma.
- Participar ocasionalmente en conversaciones técnicas con clientes para definir requisitos de infraestructura, presentar arquitecturas y asegurar que las soluciones de plataforma cumplan con las expectativas de cada proyecto.
- Evaluar y mejorar continuamente el stack de plataforma, las herramientas, los procesos y las prácticas de operación, optimizando la eficiencia y la fiabilidad de las soluciones.
- Capacidad de comunicación clara y estructurada con stakeholders técnicos y no técnicos, presentando decisiones de arquitectura e infraestructura de manera accesible.
Requirements
What you’ll need- Más de 4 años de experiencia en roles de Platform Engineering, DevOps, SRE o Infrastructure Engineering, con responsabilidad directa sobre infraestructura en producción a escala.
- Experiencia sólida y comprobable en AWS y Azure, incluyendo servicios de cómputo, networking, almacenamiento, identidad (IAM/Entra ID) y Kubernetes gestionado (EKS/AKS).
- Dominio de Terraform. Experiencia con gestión de estado remoto, módulos reutilizables y pipelines de IaC en CI/CD.
- Experiencia avanzada diseñando y operando clústeres de Kubernetes en producción: RBAC, network policies, Helm, Kustomize, operadores y estrategias de escalamiento (HPA, VPA, Cluster Autoscaler).
- Experiencia diseñando pipelines de CI/CD complejos en plataformas como GitHub Actions, GitLab CI, Azure DevOps o Jenkins.
- Dominio de Docker: construcción de imágenes optimizadas, multi-stage builds y gestión de registros (ECR, ACR). Experiencia con escaneo de vulnerabilidades (Trivy, Snyk).
- Experiencia implementando stacks de observabilidad con Prometheus, Grafana, Datadog, OpenTelemetry o ELK/Loki.
- Sólidas habilidades de scripting en Python y Bash para automatización de tareas operacionales y desarrollo de herramientas internas.
- Capacidad comprobada de trabajar de forma independiente, tomar decisiones técnicas complejas y ser dueño/a de resultados end-to-end en contextos de alta ambigüedad.
- Habilidad para explicar decisiones de infraestructura a audiencias técnicas y de negocio.
- Comunicación fluida en español e inglés, escrito y verbal.
- Experiencia con herramientas como MLflow, Kubeflow, Seldon Core, KServe, SageMaker Pipelines o Azure ML Pipelines para gestión del ciclo de vida de modelos de ML (Valorado).
- Experiencia gestionando infraestructura de GPU (instancias spot, scheduling) y desplegando modelos de LLMs o embeddings en producción (Valorado).
- Certificaciones en AWS (Solutions Architect, DevOps Engineer) o Azure (AZ-104, AZ-400) (Valorado).
- Experiencia con Istio, Linkerd o Consul para gestión de tráfico, mTLS y observabilidad de red (Valorado).
- Experiencia operando bases de datos vectoriales como Pinecone, Weaviate o pgvector en producción (Valorado).
Benefits
Comp & perks- Trabajo 100% remoto con horario alineado a CST.
- PTO ilimitado: Confiamos en que gestionarás tu tiempo de manera efectiva.
- Presupuesto anual para desarrollo: Acceso a cursos, certificaciones y conferencias.
- Presupuesto para equipamiento: Configura tu espacio de trabajo remoto ideal.
- Beneficio de salud: Acceso a cobertura médica privada o subsidios para seguro médico.
- Oportunidades de crecimiento: Plan de carrera y mentoría con expertos en IA y tecnología.
- Ambiente de startup dinámico y flexible: Autonomía para tomar decisiones y proponer ideas, con un enfoque en resultados en lugar de horas trabajadas.
- Balance vida-trabajo: Cultura que prioriza la flexibilidad y el bienestar, permitiéndote gestionar tu tiempo sin sacrificar tu vida personal.
ATS Keywords
✓ Tailor your resumeApplicant Tracking System Keywords
Tip: use these terms in your resume and cover letter to boost ATS matches.
Hard Skills & Tools
AWSAzureTerraformKubernetesCI/CDDockerPythonBashMLOpsObservability
Soft Skills
independencedecision makingcommunicationmentoringcollaborationproblem solvingleadershipadaptabilitystakeholder engagementtechnical explanation
Certifications
AWS Solutions ArchitectAWS DevOps EngineerAzure AZ-104Azure AZ-400
