BigData, Machine-learning, AI & AnalyticsBigData, Machine-learning, AI & Analytics
Conference50min
INTERMEDIATE

Kueue : Kubernetes-native Job Queueing

Kueue, un système de file d'attente open-source pour Kubernetes, optimise la gestion des workloads et l'utilisation des ressources GPU pour le Deep Learning. Il facilite l'orchestration des tâches et l'entraînement simultané de modèles de Machine Learning, assurant une allocation efficace des ressources et évitant les goulots d'étranglement dans un cluster partagé.

Laurent Grangeau
Laurent GrangeauGoogle

talkDetail.whenAndWhere

Thursday, June 19, 16:00-16:50
Linux
talks.description
Dans le paysage dynamique cloud-native d'aujourd'hui, une file d'attente et une gestion efficaces des workloads sont cruciales pour orchestrer des charges de travail complexes dans Kubernetes. L'exploitation de la puissance des GPU pour le Deep learning nécessite aussi une gestion efficace des files d'attente et des ressources dans Kubernetes. Sans file d'attente, il peut être compliqué d'orchestrer efficacement des workloads ou des entrainement de modèle de Machine Learning.
Kueue est un système de file d'attente open-source et natif Kubernetes conçu pour relever ce défi. Kueue change la donne en permettant une orchestration transparente des tâches et une utilisation optimisée des ressources pour les entrainement nécessitant des GPU/TPU.
Kueue est un système de mise en file d'attente des travaux natif du cloud pour les applications batch, HPC, AI/ML et autres applications similaires dans un cluster Kubernetes.
Dans ce talk, nous montrerons les avantages de Kueue et lancerons l'entraînement simultané de plusieurs modèles de Machine Learning sur un cluster de GPU partagé. Kueue facilitera la mise en file d'attente et l'ordonnancement, garantissant que chaque tâche reçoit les ressources nécessaires tout en évitant les goulots d'étranglement.
orchestration
kueue
ressources
kubernetes
talks.speakers
Laurent Grangeau

Laurent Grangeau

Google

France

Laurent Grangeau is a Cloud Solution Architect with more than 10+ years of experience. Former Java developer, he has since developed in .NET, with Agile and DevOps mindsets. He has been experimenting with cloud providers for more than 5+ years. Docker enthusiast from the beginning, he has experienced with building microservices and distributed systems. He loves to automate things and run distributed applications at scale.
comments.title

comments.speakerNotEnabledComments