Red Hat, Inc lance Red Hat AI Inference Server
mai 2025 par LA REDACTION DE GS MAG
Red Hat, Inc franchit une étape majeure sur la voie de la démocratisation de l’IA générative (genAI) en environnements de cloud hybrides avec le lancement de Red Hat AI Inference Server. Cette nouvelle composante de la gamme de produits d’entreprise Red Hat AI est le fruit du puissant projet communautaire vLLM (virtual Large Language Model), un grand modèle de langage virtuel qui bénéficie de l’intégration des technologies Neural Magic de Red Hat pour bénéficier à la fois d’une plus grande rapidité, d’une meilleure efficacité au niveau de l’accélérateur et d’une rentabilité accrue en vue de concrétiser la vision de Red Hat : exécuter n’importe quel modèle d’IA générative sur n’importe quel accélérateur d’IA et sur n’importe quel environnement de cloud. Déployée de manière autonome ou en tant que composante intégrée aux outils Red Hat Enterprise Linux AI (RHEL AI) et Red Hat OpenShift AI, cette plateforme révolutionnaire permet aux entreprises de mettre en œuvre et de monter leurs projets d’IA générative en production avec davantage de confiance.
L’inférence est le moteur d’exécution critique de l’IA sur lequel des modèles pré-entraînés traduisent des données en réponses concrètes. Point central de l’interaction avec l’utilisateur, elle exige des réponses rapides et précises. À l’heure où les modèles d’IA générative sont de plus en plus complexes et les déploiements de production montent en puissance, l’inférence peut devenir un goulot d’étranglement conséquent qui consomme les ressources matérielles tout en menaçant de paralyser la réactivité et d’accroître les coûts d’exploitation. À ce titre, les serveurs d’inférence robustes ne constituent plus un luxe, mais une nécessité pour réaliser le plein potentiel de l’intelligence artificielle à grande échelle en permettant aux entreprises de gérer les complexités sous-jacentes avec une plus grande facilité.
Red Hat relève directement ces défis avec Red Hat AI Inference Server, une solution d’inférence open source conçue pour offrir des performances élevées et qui s’appuie sur des outils de compression et d’optimisation de modèles de haute technologie. Grâce à cette solution à la pointe de l’innovation, les entreprises peuvent exploiter pleinement le pouvoir transformatif de l’IA générative en permettant aux utilisateurs de vivre des expériences nettement plus réactives et de bénéficier d’une liberté sans égal dans le choix des accélérateurs d’IA, des modèles et de l’environnement IT.
Modèles vLLM : étendre l’innovation aux inférences
Red Hat AI Inference Server s’appuie sur le projet de pointe vLLM lancé par l’Université de Californie UC Berkeley au milieu de l’année 2023. Ce projet communautaire englobe une inférence d’IA générative à haut débit, la prise en charge d’un contexte d’entrée étendu, l’accélération des modèles multi-GPU, le traitement en lots continus (continuous batching), etc.
Associée à l’intégration immédiate des principaux grands modèles « frontières » que sont Gemma, Llama, Mistral ou Phi, la prise en charge étendue des modèles publics par le langage vLLM élève le langage vLLM au rang de standard pour les futures innovations en matière d’inférences d’IA. Les principaux fournisseurs de modèles « frontières » adoptent de plus en plus le langage vLLM, ce qui souligne son rôle décisif pour l’avenir de l’IA générative.
Présentation de Red Hat AI Inference Server
Red Hat AI Inference Server intègre les innovations de pointe qui caractérisent le langage vLLM dans ses fonctionnalités d’entreprise. Cet outil est disponible en tant qu’offre conteneurisée autonome ou au sein des solutions RHEL AI et Red Hat OpenShift AI.
Quel que soit l’environnement de déploiement, les utilisateurs de Red Hat AI Inference Server ont à leur disposition une distribution renforcée et supportée du langage vLLM et bénéficient :
● d’outils de compression LLM intelligents qui permettent de réduire de manière significative la taille des modèles d’IA fondamentaux et affinés, ce qui minimise la consommation de puissance de calcul tout en conservant, voire en améliorant potentiellement la précision du modèle ;
● d’un référentiel de modèles optimisé, hébergé dans Red Hat AI sur Hugging Face, qui permet d’accéder instantanément à un ensemble validé et optimisé de modèles d’IA de premier plan prêts pour le déploiement d’inférences ; cette fonctionnalité contribue à multiplier l’efficacité par 2 à 4 sans compromettre la précision du modèle ;
● de l’assistance au niveau entreprise et de l’expertise acquise par Red Hat depuis plusieurs décennies dans la migration de projets communautaires vers des environnements de production ;
● de la prise en charge tierce partie pour une flexibilité de déploiement accrue, ce qui permet de déployer Red Hat AI Inference Server sur des plateformes Linux et Kubernetes hors-Red Hat, conformément à la politique de support tierce partie de Red Hat.
La vision de Red Hat : tous les modèles, tous les accélérateurs, sur n’importe quel cloud.
L’avenir de l’IA doit être défini par des opportunités sans limites, et non limité par des infrastructures cloisonnées. Selon la vision de Red Hat, les entreprises doivent être en mesure de déployer n’importe quel modèle sur n’importe quel accélérateur et dans n’importe quel environnement de cloud afin d’offrir aux utilisateurs une expérience exceptionnelle, plus homogène et sans coûts exorbitants. Pour libérer le plein potentiel des investissements consacrés à l’IA, les entreprises ont besoin d’une plateforme d’inférence universelle — un standard d’innovation pour une IA plus transparente et plus performante, dès aujourd’hui et pour les années à venir.
Pionnier de l’entreprise ouverte après avoir fait de Linux la fondation informatique de nouvelle génération, Red Hat est aujourd’hui prêt à architecturer l’avenir des inférences d’IA. Le langage vLLM joue un rôle décisif dans la standardisation des inférences d’IA générative et, dans ce contexte, Red Hat s’est engagé à créer un écosystème dynamique autour non seulement de la communauté vLLM mais également du projet llm-d pour les inférences distribuées à grande échelle. La vision de Red Hat est claire : indépendamment du modèle d’IA, de l’accélérateur sous-jacent et de l’environnement de déploiement, Red Hat entend imposer le langage vLLM comme le standard d’inférence ouverte incontournable dans les nouveaux environnements de cloud hybrides.