Apply

Ready to go for it?

AI Apply speeds things up—apply directly if you prefer.

FREE ACCESS
5,000–10,000 jobs/day
JobTailor Logo

See all jobs on JobTailor

Search thousands of fresh jobs every day.

Discover
  • Fresh listings
  • Fast filters
  • No subscription required
Create a free account and start exploring right away.
Creai

Platform Engineer

Creai

. Diseñar, implementar y mantener infraestructura en AWS y Azure utilizando Terraform o Pulumi.

Posted 5/1/2026full-timeRemote • 🇲🇽 MexicoMid-LevelSeniorWebsite

Tech Stack

Tools & technologies
AWSAzureCloudConsulDockerGrafanaJenkinsKubernetesPrometheusPythonTerraform

About the role

Key responsibilities & impact
  • Diseñar, implementar y mantener infraestructura en AWS y Azure utilizando Terraform o Pulumi.
  • Definir la estrategia cloud multi-proveedor de Creai, garantizando que toda la infraestructura sea reproducible, segura y versionada.
  • Diseñar y operar pipelines de integración y entrega continua robustos y reutilizables para todos los equipos de ingeniería, soportando despliegues de aplicaciones y modelos de ML/IA con testing automatizado, quality gates y estrategias de rollback.
  • Diseñar, desplegar y operar clústeres de Kubernetes en producción (EKS/AKS).
  • Gestionar namespaces, RBAC, network policies, Helm/Kustomize y estrategias de escalamiento automático para cargas de trabajo de IA.
  • Construir y mantener la plataforma MLOps de Creai: pipelines de entrenamiento, registro y versionado de modelos, despliegue como endpoints escalables y monitoreo de performance en producción.
  • Implementar infraestructura especializada para cargas de trabajo de IA generativa, incluyendo gestión de recursos GPU y arquitecturas RAG.
  • Ser el principal impulsor de la experiencia del desarrollador: construir herramientas, templates y abstracciones que permitan a los equipos de ingeniería y ciencia de datos enfocarse en crear valor sin fricciones operacionales.
  • Incorporar seguridad en todos los niveles de la plataforma: gestión de secretos, IAM, cifrado y cumplimiento de mínimo privilegio.
  • Definir y hacer seguimiento de SLAs/SLOs. Liderar la respuesta a incidentes y post-mortems.
  • Diseñar para alta disponibilidad y recuperación ante desastres.
  • Implementar stacks de observabilidad completos (métricas, logs y trazas) con herramientas como Prometheus, Grafana, Datadog u OpenTelemetry, garantizando visibilidad del estado de todos los servicios y modelos en producción.
  • Como primer miembro del equipo de Plataforma, construir no solo la infraestructura sino también la cultura, los procesos y los estándares del equipo.
  • Influir activamente en las decisiones arquitectónicas de toda la organización y mentorizar a futuros ingenieros de plataforma.
  • Participar ocasionalmente en conversaciones técnicas con clientes para definir requisitos de infraestructura, presentar arquitecturas y asegurar que las soluciones de plataforma cumplan con las expectativas de cada proyecto.
  • Evaluar y mejorar continuamente el stack de plataforma, las herramientas, los procesos y las prácticas de operación, optimizando la eficiencia y la fiabilidad de las soluciones.
  • Capacidad de comunicación clara y estructurada con stakeholders técnicos y no técnicos, presentando decisiones de arquitectura e infraestructura de manera accesible.

Requirements

What you’ll need
  • Más de 4 años de experiencia en roles de Platform Engineering, DevOps, SRE o Infrastructure Engineering, con responsabilidad directa sobre infraestructura en producción a escala.
  • Experiencia sólida y comprobable en AWS y Azure, incluyendo servicios de cómputo, networking, almacenamiento, identidad (IAM/Entra ID) y Kubernetes gestionado (EKS/AKS).
  • Dominio de Terraform. Experiencia con gestión de estado remoto, módulos reutilizables y pipelines de IaC en CI/CD.
  • Experiencia avanzada diseñando y operando clústeres de Kubernetes en producción: RBAC, network policies, Helm, Kustomize, operadores y estrategias de escalamiento (HPA, VPA, Cluster Autoscaler).
  • Experiencia diseñando pipelines de CI/CD complejos en plataformas como GitHub Actions, GitLab CI, Azure DevOps o Jenkins.
  • Dominio de Docker: construcción de imágenes optimizadas, multi-stage builds y gestión de registros (ECR, ACR). Experiencia con escaneo de vulnerabilidades (Trivy, Snyk).
  • Experiencia implementando stacks de observabilidad con Prometheus, Grafana, Datadog, OpenTelemetry o ELK/Loki.
  • Sólidas habilidades de scripting en Python y Bash para automatización de tareas operacionales y desarrollo de herramientas internas.
  • Capacidad comprobada de trabajar de forma independiente, tomar decisiones técnicas complejas y ser dueño/a de resultados end-to-end en contextos de alta ambigüedad.
  • Habilidad para explicar decisiones de infraestructura a audiencias técnicas y de negocio.
  • Comunicación fluida en español e inglés, escrito y verbal.
  • Experiencia con herramientas como MLflow, Kubeflow, Seldon Core, KServe, SageMaker Pipelines o Azure ML Pipelines para gestión del ciclo de vida de modelos de ML (Valorado).
  • Experiencia gestionando infraestructura de GPU (instancias spot, scheduling) y desplegando modelos de LLMs o embeddings en producción (Valorado).
  • Certificaciones en AWS (Solutions Architect, DevOps Engineer) o Azure (AZ-104, AZ-400) (Valorado).
  • Experiencia con Istio, Linkerd o Consul para gestión de tráfico, mTLS y observabilidad de red (Valorado).
  • Experiencia operando bases de datos vectoriales como Pinecone, Weaviate o pgvector en producción (Valorado).

Benefits

Comp & perks
  • Trabajo 100% remoto con horario alineado a CST.
  • PTO ilimitado: Confiamos en que gestionarás tu tiempo de manera efectiva.
  • Presupuesto anual para desarrollo: Acceso a cursos, certificaciones y conferencias.
  • Presupuesto para equipamiento: Configura tu espacio de trabajo remoto ideal.
  • Beneficio de salud: Acceso a cobertura médica privada o subsidios para seguro médico.
  • Oportunidades de crecimiento: Plan de carrera y mentoría con expertos en IA y tecnología.
  • Ambiente de startup dinámico y flexible: Autonomía para tomar decisiones y proponer ideas, con un enfoque en resultados en lugar de horas trabajadas.
  • Balance vida-trabajo: Cultura que prioriza la flexibilidad y el bienestar, permitiéndote gestionar tu tiempo sin sacrificar tu vida personal.

ATS Keywords

✓ Tailor your resume
Applicant Tracking System Keywords

Tip: use these terms in your resume and cover letter to boost ATS matches.

Hard Skills & Tools
AWSAzureTerraformKubernetesCI/CDDockerPythonBashMLOpsObservability
Soft Skills
independencedecision makingcommunicationmentoringcollaborationproblem solvingleadershipadaptabilitystakeholder engagementtechnical explanation
Certifications
AWS Solutions ArchitectAWS DevOps EngineerAzure AZ-104Azure AZ-400