Platform Engineer

Creai

. Diseñar, implementar y mantener infraestructura en AWS y Azure utilizando Terraform o Pulumi.

Posted 5/1/2026full-timeRemote • 🇲🇽 MexicoMid-LevelSeniorWebsite

Tech Stack

Tools & technologies

AWSAzureCloudConsulDockerGrafanaJenkinsKubernetesPrometheusPythonTerraform

About the role

Key responsibilities & impact

Diseñar, implementar y mantener infraestructura en AWS y Azure utilizando Terraform o Pulumi.
Definir la estrategia cloud multi-proveedor de Creai, garantizando que toda la infraestructura sea reproducible, segura y versionada.
Diseñar y operar pipelines de integración y entrega continua robustos y reutilizables para todos los equipos de ingeniería, soportando despliegues de aplicaciones y modelos de ML/IA con testing automatizado, quality gates y estrategias de rollback.
Diseñar, desplegar y operar clústeres de Kubernetes en producción (EKS/AKS).
Gestionar namespaces, RBAC, network policies, Helm/Kustomize y estrategias de escalamiento automático para cargas de trabajo de IA.
Construir y mantener la plataforma MLOps de Creai: pipelines de entrenamiento, registro y versionado de modelos, despliegue como endpoints escalables y monitoreo de performance en producción.
Implementar infraestructura especializada para cargas de trabajo de IA generativa, incluyendo gestión de recursos GPU y arquitecturas RAG.
Ser el principal impulsor de la experiencia del desarrollador: construir herramientas, templates y abstracciones que permitan a los equipos de ingeniería y ciencia de datos enfocarse en crear valor sin fricciones operacionales.
Incorporar seguridad en todos los niveles de la plataforma: gestión de secretos, IAM, cifrado y cumplimiento de mínimo privilegio.
Definir y hacer seguimiento de SLAs/SLOs. Liderar la respuesta a incidentes y post-mortems.
Diseñar para alta disponibilidad y recuperación ante desastres.
Implementar stacks de observabilidad completos (métricas, logs y trazas) con herramientas como Prometheus, Grafana, Datadog u OpenTelemetry, garantizando visibilidad del estado de todos los servicios y modelos en producción.
Como primer miembro del equipo de Plataforma, construir no solo la infraestructura sino también la cultura, los procesos y los estándares del equipo.
Influir activamente en las decisiones arquitectónicas de toda la organización y mentorizar a futuros ingenieros de plataforma.
Participar ocasionalmente en conversaciones técnicas con clientes para definir requisitos de infraestructura, presentar arquitecturas y asegurar que las soluciones de plataforma cumplan con las expectativas de cada proyecto.
Evaluar y mejorar continuamente el stack de plataforma, las herramientas, los procesos y las prácticas de operación, optimizando la eficiencia y la fiabilidad de las soluciones.
Capacidad de comunicación clara y estructurada con stakeholders técnicos y no técnicos, presentando decisiones de arquitectura e infraestructura de manera accesible.

Requirements

What you’ll need

Más de 4 años de experiencia en roles de Platform Engineering, DevOps, SRE o Infrastructure Engineering, con responsabilidad directa sobre infraestructura en producción a escala.
Experiencia sólida y comprobable en AWS y Azure, incluyendo servicios de cómputo, networking, almacenamiento, identidad (IAM/Entra ID) y Kubernetes gestionado (EKS/AKS).
Dominio de Terraform. Experiencia con gestión de estado remoto, módulos reutilizables y pipelines de IaC en CI/CD.
Experiencia avanzada diseñando y operando clústeres de Kubernetes en producción: RBAC, network policies, Helm, Kustomize, operadores y estrategias de escalamiento (HPA, VPA, Cluster Autoscaler).
Experiencia diseñando pipelines de CI/CD complejos en plataformas como GitHub Actions, GitLab CI, Azure DevOps o Jenkins.
Dominio de Docker: construcción de imágenes optimizadas, multi-stage builds y gestión de registros (ECR, ACR). Experiencia con escaneo de vulnerabilidades (Trivy, Snyk).
Experiencia implementando stacks de observabilidad con Prometheus, Grafana, Datadog, OpenTelemetry o ELK/Loki.
Sólidas habilidades de scripting en Python y Bash para automatización de tareas operacionales y desarrollo de herramientas internas.
Capacidad comprobada de trabajar de forma independiente, tomar decisiones técnicas complejas y ser dueño/a de resultados end-to-end en contextos de alta ambigüedad.
Habilidad para explicar decisiones de infraestructura a audiencias técnicas y de negocio.
Comunicación fluida en español e inglés, escrito y verbal.
Experiencia con herramientas como MLflow, Kubeflow, Seldon Core, KServe, SageMaker Pipelines o Azure ML Pipelines para gestión del ciclo de vida de modelos de ML (Valorado).
Experiencia gestionando infraestructura de GPU (instancias spot, scheduling) y desplegando modelos de LLMs o embeddings en producción (Valorado).
Certificaciones en AWS (Solutions Architect, DevOps Engineer) o Azure (AZ-104, AZ-400) (Valorado).
Experiencia con Istio, Linkerd o Consul para gestión de tráfico, mTLS y observabilidad de red (Valorado).
Experiencia operando bases de datos vectoriales como Pinecone, Weaviate o pgvector en producción (Valorado).

Benefits

Comp & perks

Trabajo 100% remoto con horario alineado a CST.
PTO ilimitado: Confiamos en que gestionarás tu tiempo de manera efectiva.
Presupuesto anual para desarrollo: Acceso a cursos, certificaciones y conferencias.
Presupuesto para equipamiento: Configura tu espacio de trabajo remoto ideal.
Beneficio de salud: Acceso a cobertura médica privada o subsidios para seguro médico.
Oportunidades de crecimiento: Plan de carrera y mentoría con expertos en IA y tecnología.
Ambiente de startup dinámico y flexible: Autonomía para tomar decisiones y proponer ideas, con un enfoque en resultados en lugar de horas trabajadas.
Balance vida-trabajo: Cultura que prioriza la flexibilidad y el bienestar, permitiéndote gestionar tu tiempo sin sacrificar tu vida personal.

ATS Keywords

✓ Tailor your resume

Applicant Tracking System Keywords

Tip: use these terms in your resume and cover letter to boost ATS matches.

Hard Skills & Tools

AWSAzureTerraformKubernetesCI/CDDockerPythonBashMLOpsObservability

Soft Skills

independencedecision makingcommunicationmentoringcollaborationproblem solvingleadershipadaptabilitystakeholder engagementtechnical explanation

Certifications

AWS Solutions ArchitectAWS DevOps EngineerAzure AZ-104Azure AZ-400