Tech Stack
AirflowAWSFluxGoJavaPythonPyTorchRedisScikit-LearnTensorflowTerraformTypeScriptVue.js
About the role
- Sous la responsabilité du directeur de la plateforme de données et d'apprentissage automatique, l'ingénieur sénior de la plateforme d'apprentissage automatique au sein de l'équipe de données de Mistplay jouera un rôle clé dans la recherche et le développement de solutions d'apprentissage automatique (ML) visant à résoudre des problèmes commerciaux complexes. L'ingénieur sénior de la plateforme d'apprentissage automatique travaillera en étroite collaboration avec une équipe interfonctionnelle afin d'identifier les domaines à améliorer, puis de concevoir et de mettre en œuvre des solutions évolutives. L'expérience requise peut aller du traitement d'une grande variété de problèmes d'optimisation et de classification, par exemple le filtrage/la recommandation collaborative, la détection des fraudes, la segmentation, la modélisation des propensions, la classification des textes/sentiments, etc.
- Tes missions chez Mistplay :
- Concevoir, créer et exploiter des pipelines standardisés de formation à la mise en service avec Airflow, couvrant la gestion des artefacts, l'approvisionnement de l'environnement, l'empaquetage, le déploiement et la restauration pour les points de terminaison SageMaker.
- Maîtriser l'inférence en temps réel et parlots sur SageMaker : points de terminaison multi-modèles, inférence sans serveur lorsque cela est approprié, stratégies bleu/vert et canari, politiques d'auto-scaling et contrôles des coûts (stratégies spot, dimensionnement des instances).
- Mettre en œuvre des modèles de service à très faible latence avec Redis/Valkey : mise en cache des fonctionnalités, récupération des fonctionnalités en ligne, état au niveau de la requête, mise en cache des réponses du modèle et limitation du débit/contrepression pour le trafic en rafale.
- Provisionner et gérer l'infrastructure ML/données avec Terraform : points de terminaison/configurations SageMaker, ressources ECR/ECS/EKS, points de terminaison réseau/VPC, clusters ElastiCache/Valkey, piles d'observabilité, secrets et IAM.
- Construire des abstractions de plate-forme et des chemins d'or : modèles Airflow DAG, CLI/SDK, référentiels cookie-cutter et pipelines CI/CD qui transfèrent les modèles des notebooks à la production de manière prévisible.
- Mettre en place et gérer la gouvernance du cycle de vie des modèles : registres de modèles/fonctionnalités, workflows d'approbation, politiques de promotion, lignage et pistes d'audit intégrés aux exécutions Airflow et à l'état Terraform.
- Mettre en œuvre une observabilité de bout en bout : vérifications de la fraîcheur des données/fonctionnalités, contrôles de dérive/qualité, SLO de performance/latence des modèles, tableaux de bord de santé de l'infrastructure, traçabilité et alertes, ainsi que réponse aux incidents et analyses rétrospectives.
- Collaborer avec les équipes de sécurité, de SRE et d'ingénierie des données sur les réseaux privés, les politiques en tant que code, le traitement des informations personnelles identifiables, l'IAM à privilèges minimaux et les architectures rentables dans tous les environnements.
- Évaluer, intégrer et rationaliser les outils de la plateforme (par exemple, registre MLflow, magasins de fonctionnalités, passerelles de service) ; diriger les migrations avec une gestion claire des changements et un temps d'arrêt minimal.
Requirements
- Plus de 5 ans d'expérience dans la création et l'exploitation de plateformes ML/de données de niveau production, axées sur le service, la fiabilité et l'expérience développeur.
- Solides compétences en génie logiciel avec Python, Go ou Java ; expérience dans la création de services résilients, d'API et d'outils d'automatisation avec une couverture de test élevée.
- Expérience approfondie de l'inférence AWS SageMaker : configuration des points de terminaison, conteneurisation, empaquetage de modèles, autoscaling, compromis entre serverless et temps réel, MME, A/B et canary releases.
- Expertise des magasins de fonctionnalités en ligne tels que Redis/Valkey dans des contextes de service ML.
- Expérience avérée de Terraform dans la gestion de bout en bout de l'infrastructure ML et des données : modules, espaces de travail, détection des dérives, révision des modifications et restaurations sécurisées ; connaissance des modèles GitOps.
- Orchestration Airflow à grande échelle : modélisation des dépendances, capteurs, réessais, SLA, backfills, usines DAG et intégrations avec les registres, les magasins d'artefacts et les pipelines Terraform.
- Connaissance des cadres ML (scikit-learn, XGBoost, PyTorch, TensorFlow) du point de vue de l'intégration des plateformes afin de prendre en charge divers environnements d'exécution et conteneurs.
- Observabilité des flux de travail ML : métriques/journaux/traces, profilage des performances, planification des capacités, surveillance des coûts et runbooks.
- Excellente communication et collaboration interfonctionnelle avec les équipes de science des données, d'ingénierie des données, de DevOps et de backend.