Leonardo

HPC & AI Cloud Architect

Leonardo

full-time

Posted on:

Location Type: Hybrid

Location: RomaItaly

Visit company website

Explore more

AI Apply
Apply

About the role

  • Progettazione dell’architettura di infrastrutture HPC e AI per supportare carichi di lavoro complessi, training e inferenza modelli AI/ML e simulazioni avanzate, in ambienti OpenStack
  • Definizione di strategie per l’adozione di tecnologie emergenti (acceleratori, XPUs, GPU/TPU, high performance fabrics, storage NVMe, file system paralleli tipo Lustre/GPFS/BeeGFS)
  • Implementazione di cluster computazionali (CPU/GPU), orchestrazione container e VM (Kubernetes, Docker, Slurm, OpenStack), e ottimizzazione delle risorse per AI e HPC
  • Integrazione con ambienti DevOps/MLOps per workflow CI/CD di modelli AI, automazione e monitoraggio
  • Seguire la standardizzazione delle infrastrutture tramite Infrastructure-as-Code (Terraform, Ansible, Kolla)
  • Gestione e tuning di networking ad alta velocità (Infiniband, 200/400GbE), storage avanzato e data pipeline per big data e machine learning
  • Implementare best practice per la sicurezza, monitoraggio, reliability (monitoraggio, logging, observability, SLO/SLAs) e business continuity
  • Coordinamento di progetti di business continuity, disaster recovery e backup in ambienti HPC/AI
  • Collaborare con data scientist, DevOps, ingegneri software e stakeholder di ricerca per costruire soluzioni AI/HPC altamente performanti e customizzate
  • Stesura della documentazione tecnica e supporto alle attività di compliance, sicurezza e auditing.

Requirements

  • Laurea magistrale in Informatica, Ingegneria Informatica o discipline STEM affini
  • 3–5 anni di esperienza nella progettazione e gestione di infrastrutture HPC e AI, preferibilmente in ambienti cloud ibridi e multi-tenant
  • Esperienza nella progettazione e configurazione di tecnologie HPC (cluster, scheduler, file system paralleli), architetture GPU/XPU e strumenti di orchestrazione (Kubernetes, Slurm, Docker)
  • Esperienza con acceleratori (GPU, CUDA) per AI/ML e pipeline di deployment di modelli di machine learning su cloud.
  • Conoscenza di sistemi operativi Linux/Unix, scripting, networking avanzato (SDN, InfiniBand, RDMA) e soluzioni per il trasferimento dati ad alta velocità
  • Esperienza nell’implementazione di workflow CI/CD e MLOps per training ed inferenza distributed
  • Capacità di benchmarking, tuning, troubleshooting di ambienti HPC/AI e ottimizzazione delle risorse
  • Conoscenza di strumenti Infrastructure-as-Code, tecniche di tuning prestazionale e monitoraggio (Prometheus, Grafana)
  • Competenze in storage ad alte prestazioni, interfacce NVMe-oF, SAN/NAS, data management.
  • Buona conoscenza dell’inglese, scritto e parlato (B2)
Benefits
  • Disponibilità a trasferte nazionali e internazionali

Applicant Tracking System Keywords

Tip: use these terms in your resume and cover letter to boost ATS matches.

Hard skills
HPC architecture designAI/ML model trainingAI/ML inferenceOpenStackKubernetesDockerSlurmTerraformAnsibleCUDA
Soft skills
collaborationproject coordinationdocumentationtroubleshootingbenchmarkingtuningcommunication