CertKOR AI

Responsable des opérations des grappes de calcul

CertKOR AI

full-time

Posted on:

Origin:  • 🇨🇦 Canada

Visit company website
AI Apply
Manual Apply

Job Level

SeniorLead

Tech Stack

AnsibleDockerTerraform

About the role

  • Le rôle: Mila est à la recherche d'un.e responsable des opérations des grappes de calcul hautement expérimenté.e pour gérer nos infrastructures de calcul; Cette personne sera responsable de la planification stratégique, de la conception, de la mise en œuvre et de l'exploitation des grappes de calcul haute performance (CHP/IA) et des centres de données. Le candidat retenu jouera un rôle central en garantissant que nos chercheurs et étudiants ont accès à des ressources informatiques de pointe pour repousser les limites de l'IA.
  • Responsabilités: - Gestion des grappes HPC: Superviser l'architecture, le déploiement, la maintenance et l'optimisation des grappes HPC, en assurant une haute disponibilité, performance et évolutivité.
  • Opérations et fiabilité: Établir et appliquer les meilleures pratiques pour les opérations d'infrastructure, la surveillance, le dépannage et la réponse aux incidents afin de maintenir un environnement hautement fiable.
  • Gestion budgétaire: Gérer les budgets de l'infrastructure.
  • Gestion des fournisseurs: Trouver et prendre contacts avec des fournisseurs, négocier les contrats et les ententes de services
  • Sécurité et conformité: Assurer la sécurité et la conformité de tous les composants de l'infrastructure, en mettant en œuvre des mesures de sécurité robustes et des protocoles de protection des données.
  • Collaboration: Travailler en étroite collaboration avec les chercheurs, les professeurs et les autres départements pour comprendre leurs besoins informatiques et fournir des solutions adaptées.
  • Innovation: Se tenir au courant des dernières avancées en matière d'infrastructure informatique et de matériel d'IA, en proposant et en mettant en œuvre des solutions innovantes pour améliorer les capacités de Mila.
  • The Role: Mila is seeking a highly experienced and visionary Head of Infrastructure to lead and evolve our critical computing infrastructure. This individual will be responsible for the strategic planning, design, implementation, and operation of Mila's high-performance computing (HPC/AI) clusters, data centers, and network infrastructure. The successful candidate will play a pivotal role in ensuring that our researchers and students have access to state-of-the-art computing resources to push the boundaries of AI.
  • Responsibilities: Strategic Leadership: Develop and execute a comprehensive infrastructure strategy aligned with Mila's research goals, including future needs for growth and emerging technologies.
  • HPC Cluster Management: Oversee the architecture, deployment, maintenance, and optimization of HPC clusters, ensuring high availability, performance, and scalability.
  • Vendor Management & Procurement: Lead the RFP process for the procurement of new HPC clusters and other infrastructure components, ensuring cost-effectiveness and alignment with technical requirements.
  • Team Leadership: Lead, mentor, and grow a team of skilled infrastructure engineers and administrators.
  • Operations & Reliability: Establish and enforce best practices for infrastructure operations, monitoring, troubleshooting, and incident response to maintain a highly reliable environment.
  • Budget Management: Manage infrastructure budgets.
  • Security & Compliance: Ensure the security and compliance of all infrastructure components, implementing robust security measures and data protection protocols.
  • Collaboration: Work closely with researchers, faculty, and other departments to understand their computing needs and provide tailored solutions.
  • Innovation: Stay abreast of the latest advancements in computing infrastructure and AI hardware, proposing and implementing innovative solutions to enhance Mila's capabilities.

Requirements

  • Bachelor's or Master's degree in Computer Science, Engineering, or a related field.
  • 10+ years of experience in IT infrastructure, with at least 5 years in a leadership role managing complex computing environments.
  • Deep expertise in HPC cluster architecture, design, and operations, including experience with schedulers (e.g., Slurm), high-speed interconnects (e.g., InfiniBand), and parallel file systems (e.g., Lustre, BeeGFS).
  • Proven experience managing data centers, network infrastructure, and storage solutions.
  • Strong understanding of virtualization technologies (e.g., Proxmox, Docker, Podman).
  • Experience with infrastructure as code (e.g., Ansible, Terraform) and automation tools.
  • Excellent leadership, communication, and interpersonal skills, with the ability to articulate complex technical concepts to both technical and non-technical audiences.
  • Demonstrated ability to manage projects, prioritize tasks, and work effectively in a fast-paced research environment.
  • A passion for contributing to cutting-edge AI research and a commitment to Mila's mission.
  • Expérience avec le calcul accéléré par GPU et les frameworks d'apprentissage profond.
  • Connaissance des environnements de calcul de recherche et des défis spécifiques rencontrés par les chercheurs en IA.
  • Familiarité avec les technologies open-source et les contributions communautaires.