Snowflake ML prend en charge Container Runtime
novembre 2024 par Marc Jacob
Snowflake annonce lors de sa conférence annuelle pour les développeurs, BUILD 2024, de nouvelles avancées pour une IA en production pour les organisations et leurs données d’entreprise. Grâce aux innovations de Snowflake, les développeurs peuvent facilement créer des applications conversationnelles de haute précision pour des données structurées et non structurées, exécuter efficacement des inférences en lots sur des grands modèles de langage (LLM) pour des pipelines NLP, et entraîner des modèles personnalisés avec des conteneurs GPU — le tout avec une gouvernance intégrée, des contrôles d’accès, une observabilité et des garde-fous de sécurité pour garantir la fiabilité de l’IA.
En s’appuyant sur Snowflake Cortex AI, un service géré offrant une suite complète de fonctionnalités d’IA générative, les innovations récentes simplifient la création d’applications IA robustes grâce à des sources de données diversifiées, une orchestration intuitive, et des outils d’évaluation et de suivi intégrés. Ces avancées pour le développement d’applications conversationnelles de bout en bout permettent de :
Créer des réponses engageantes avec le support multimodal : Les entreprises peuvent enrichir leurs applications conversationnelles avec des entrées multimodales (images, et prochainement audio) en utilisant des LLM comme les modèles Llama 3.2 de Meta, avec le nouveau support d’entrée multimodale Cortex COMPLETE (en préversion privée).
Accéder à des réponses complètes via de nouveaux connecteurs de bases de connaissances : Les utilisateurs intègrent facilement des bases de connaissances internes avec des connecteurs gérés, comme le nouveau connecteur pour SharePoint (en préversion publique), permettant un accès automatique aux fichiers Microsoft 365 sans prétraitement manuel. Snowflake permet aussi d’exploiter des données tierces non structurées (articles de presse, journaux scientifiques, manuels, etc.) avec les extensions de connaissances Cortex sur Snowflake Marketplace (en préversion privée), garantissant respect de la propriété intellectuelle et monétisation pour les éditeurs.
Préparer rapidement les données avec des fonctions de prétraitement des documents : Les analystes et ingénieurs peuvent maintenant rendre des PDF et autres documents compatibles avec l’IA grâce aux nouvelles fonctions PARSE_DOCUMENT (extraction de texte) et SPLIT_TEXT_RECURSIVE_CHARACTER (segmentation de texte), toutes deux disponibles dans Cortex Search.
Réduire l’intégration et l’orchestration manuelles : Pour simplifier les réponses aux requêtes basées sur des données d’entreprise, les développeurs peuvent utiliser l’API Cortex Chat (en préversion publique) pour intégrer facilement le front-end de l’application à Snowflake, combinant les données structurées et non structurées en un seul appel API REST pour des applications RAG plus rapides.
Améliorer la fiabilité des applications et la conformité grâce à une évaluation et un suivi intégrés : Les utilisateurs peuvent évaluer leurs applications d’IA générative avec plus de 20 métriques (pertinence, fondement, absence de stéréotype, latence) en développement comme en production, via AI Observability pour les applications LLM, une technologie intégrée issue de TruEra (acquise par Snowflake en mai 2024).
Débloquer des analyses en libre-service de haute précision : Snowflake améliore Cortex Analyst avec une analyse de données simplifiée via des jointures avancées, une expérience utilisateur enrichie avec des conversations multi-étapes, et une récupération dynamique intégrée à Cortex Search (tous en préversion publique).
Exécuter une inférence LLM en lots pour le traitement du langage naturel
L’inférence en lot permet aux entreprises de traiter simultanément des ensembles de données massifs avec des LLM, contrairement à l’approche individuelle utilisée pour la plupart des applications conversationnelles. Cette méthode structurée de traitement et d’analyse de données en langage naturel (texte, parole, etc.) est facilitée par des pipelines NLP dédiés. Pour soutenir ces opérations, Snowflake propose désormais davantage d’options de personnalisation pour le traitement de texte en lots, permettant aux équipes de concevoir des pipelines NLP rapides, tout en optimisant coûts et performances.
Snowflake élargit la sélection de LLM pré-entraînés avec une variété de modèles d’embedding, de fenêtres de contexte et de langues, offrant ainsi aux organisations plus de choix et de flexibilité pour sélectionner le LLM optimal. Cela inclut l’ajout du modèle d’embedding multilingue de Voyage, des modèles multimodaux 3.1 et 3.2 de Llama, et des modèles à grande fenêtre de contexte de Jamba pour l’inférence sans serveur. Pour aider les entreprises à identifier le LLM le plus adapté, Snowflake lance Cortex Playground (en préversion publique), une interface de chat permettant de générer et comparer les réponses de différents LLM, facilitant ainsi le choix du modèle idéal.
Lorsqu’un LLM est utilisé pour diverses tâches à grande échelle, obtenir des résultats cohérents est essentiel pour une interprétation précise. En réponse, Snowflake dévoile Cortex Serverless Fine-Tuning (bientôt disponible en version générale), permettant aux développeurs de personnaliser leurs modèles avec des données propriétaires pour des résultats plus précis. Enfin, pour les entreprises nécessitant un débit garanti pour de grandes tâches d’inférence, la nouvelle fonctionnalité Provisioned Throughput (en préversion publique) assure une exécution fiable et performante.
Accélération du développement de modèles ML avec notebooks GPU et suivi optimisé
L’accès facile à une capacité de calcul évolutive et rapide accélère considérablement la capacité des équipes à itérer et déployer des modèles, surtout pour le traitement de grands ensembles de données ou l’utilisation de frameworks avancés d’apprentissage profond. Pour soutenir ces workflows gourmands en ressources et accélérer le développement des modèles, Snowflake ML prend désormais en charge Container Runtime (en préversion publique sur AWS et bientôt disponible en préversion publique sur Microsoft Azure), permettant aux utilisateurs d’exécuter efficacement des tâches de formation ML distribuées sur GPU. Ce runtime des conteneurs est un environnement entièrement géré, accessible via Snowflake Notebooks (désormais disponible en version générale) et préconfiguré pour un traitement distribué à la fois sur CPU et GPU. Les équipes ML peuvent ainsi développer des modèles puissants à grande échelle, en utilisant le framework Python ou modèle de langage de leur choix, directement sur leurs données Snowflake.
Pour répondre au besoin de GPU pour l’inférence, Snowflake propose le nouveau Model Serving dans des conteneurs (actuellement en préversion publique sur AWS). Cette solution permet aux équipes de déployer des modèles formés en interne ou en externe, y compris des LLM open source et des modèles d’embedding, depuis le registre de modèles vers Snowpark Container Services (désormais disponible en version générale sur AWS et Microsoft Azure) pour une production optimisée sur des CPU ou GPU distribués, sans configurations complexes des ressources.
Les utilisateurs peuvent également détecter rapidement la dégradation des modèles en production grâce au suivi intégré d’Observability for ML Models (en préversion publique), qui intègre la technologie TruEra pour surveiller les performances et diverses métriques de tout modèle exécutant des inférences dans Snowflake. Par ailleurs, le nouvel outil Model Explainability de Snowflake (en préversion publique) permet de calculer facilement les valeurs de Shapley — une méthode largement reconnue qui explique l’impact de chaque caractéristique sur le résultat global du modèle — pour les modèles enregistrés dans le registre de modèles. Les utilisateurs peuvent ainsi comprendre précisément comment un modèle parvient à ses conclusions et détecter ses faiblesses en identifiant les comportements inattendus en production.