LLM : savoir lequel choisir

Avec l'explosion de l'IA Générative appliquée à la génération de texte ces dernières années, de nombreuses entreprises ont souhaité pouvoir déployer en interne leur propres LLM. Elles disposent ainsi de deux possibilités : utiliser directement des modèles disponibles en version SaaS comme ChatGPT ou Cohere, ou déployer dans leur propre SI un LLM open source adaptés à leurs propres besoins.

Pour des raisons de confidentialité de données, notamment parce que la plupart des applications de LLM SaaS sont déployées par des entreprises américaines, les entreprises européennes se tournent alors majoritairement vers des solutions open source. Mais il existe de nombreux modèles open source, avec chacun leurs avantages et leurs inconvénients, qu'il convient d'énumérer et d'avoir en tête pour procéder à un choix optimal par rapport à ses propres besoins.

Dans cet article, nous allons énumérer les principaux critères de comparaison qui permettent de sélectionner le LLM open source le plus adapté pour son cas d'usage, et présenter des exemples de leaderboards qui permettent de comparer facilement les modèles entre-eux.

Critères de comparaison

Afin de pouvoir comparer les modèles entre-eux dans l'océan de possibilités qui s'offre à nous, il convient de séparer le processus de sélection en plusieurs étapes.

Utilisation et cas d'usage

Avant même de rentrer dans les détails techniques de performances, il est important d'identifier le principal cas d'usage sur lequel le modèle sera amené à traiter. En effet, certains modèles peuvent être plus adaptés pour de la classification de texte ou de résumé, alors que d'autres seront au contraire plus spécialisée dans l'extraction et la recherche d'informations.

Résumé de texte : ces modèles sont spécialisés pour créer des résumés intelligents, c'est-à-dire qui ne consistent pas à uniquement sélectionner des phrases existantes dans un corpus. Ces modèles sont alors particulièrement efficaces pour résumer des textes ou des documents, mais beaucoup moins pour entretenir des conversations avec des utilisateurs.
Classification : d'autres modèles sont plutôt adaptés pour de la classification d'information ou de la catégorisation de texte. Par exemple, ils peuvent répondre efficacement à des questions ouvertes ou au contraire, lorsqu'elles sont guidées par plusieurs propositions.
Modèle conversationnel : si l'objectif est de pouvoir entretenir une conversation avec une persistance de la mémoire et des messages précédents tout au long de la conversation, alors il est important de considérer des LLM spécialisés pour la conversation. Ce cas d'usage intervient lorsque toutes les informations ne sont pas forcément disponibles au premier message, comme c'est le cas pour les assistants d'un service client par exemple.
Assistant au code : d'autres modèles sont plus spécialisés, et notamment à destination des développeurs. C'est le cas par exemple de modèles comme GitHub Copilot ou Ghostwriter qui vont assister les développeurs dans l'écriture du code.

enter image description here

Performances

Le second point qui va évidemment avoir un impact concerne les performances du modèle, autrement dit, sa capacité à proposer des réponses adaptées à chaque demande.

La plupart de ces performances sont calculées via des métriques connues spécifiques aux LLM. Chacune de ces métriques va mesurer la qualité d'un LLM sur des tâches précises : il est donc souvent d'usage de ne pas calculer une seule métrique, mais d'en calculer plusieurs et d'effectuer des agrégations pour déterminer le meilleur LLM si l'on souhaite obtenir un modèle plutôt général.

On peut distinguer deux critères différents pour mesurer les performances.

Des critères qualitatifs, où l'on utilise des exemples bien connus pour mesurer qualitativement la réponse d'un LLM. Le plus souvent, ce critère se base sur des décisions humaines, où l'on sera capable d'indiquer si la réponse obtenue est correcte ou non. Ces critères sont bien entendu sujets à des biais, puisque la décision peut dans certains cas dépendre de l'interprétation de la réponse. On retrouve ainsi plutôt ses critères dans les tests de sécurité ou pour le renforcement post-entraînement.
Des critères quantitatifs, où l'on utilise des calculs statistiques pour obtenir un ou plusieurs scores. Ces scores, souvent compris entre 0 et 1, permettent alors de comparer facilement les modèles entre-eux, mais il convient de fixer une métrique adaptée à chaque problématique pour calculer des scores qui ont du sens.

Pour les entreprises, il s'agira souvent de choisir un mélange adapté entre performance sur la base de critères quantitatifs, mais aussi à partir d'une interaction avec des décisions humaines pour vérifier la cohérence des réponses.

En effet, contrairement à ce que l'on pourrait penser, une entreprise n'a pas forcément besoin du modèle le plus performant : en effet, tout va dépendre de la tâche que l'on souhaite réaliser. Si l'entreprise cherche surtout un LLM capable d'effectuer de l'extraction et de la recherche d'information, elle n'aura pas forcément besoin d'un modèle aussi performance que GPT-4 dans la formulation des réponses.

Taille et consommation en ressources

Le troisième qui peut avoir un impact considérable concerne la taille du modèle ainsi que sa consommation en ressources, c'est-à-dire en puissance de calcul (mémoire et GPU) nécessaire pour exécuter le modèle.

En effet, la plupart des modèles généralistes font entre 7 milliards de paramètres pour les plus petits, jusqu'à une centaine de milliards de paramètres pour les plus gros. Or, un modèle d'une centaine de milliards de paramètres peut nécessiter jusqu'à 50 Go de mémoire GPU (soit 3 à 4 GPU sur une même machine), avec un coût d'exécution allant jusqu'à $8 de l'heure dans les Cloud publics.

Si une entreprise souhaite internaliser l'exécution de LLM dans son propre SI, elle devra alors disposer de ses propres GPUs pour effectuer des inférences. Pour cela, elle peut disposer de plusieurs mécanismes pouvant aider à réduire l'impact en termes de ressources.

GPU vs CPU : certains modèles assez légers peuvent être exécutés sur GPU, notamment les modèles Tiny Llama. Néanmoins, l'exécution sur CPU limite fortement l'utilisation des LLM, car seuls les modèles les plus légers, et donc les moins performants, peuvent être exécutés.
Quantization : une autre possibilité pour réduire la taille d'un LLM lors de son exécution consiste à utiliser des techniques de quantization pour diminuer la précision des nombres flottants qui constituent les paramètres du modèle. Là-aussi, il convient de choisir le bon équilibre entre réduction de la taille mémoire et minimisation de la perte de performances.

enter image description here

Capacités du modèle

Enfin, en dernier point, les entreprises peuvent également être intéressées par les capacités des modèles, soit ce qu'il permet de faire en dehors de simplement fournir une réponse. En effet, un LLM peut avoir plusieurs capacités plus ou moins pertinentes en fonction des cas d'usage.

Support multilingue : certains LLM peuvent supporter plusieurs langues (anglais, français, espagnol, allemand, etc), alors que d'autres se concentre uniquement sur une ou deux langues (anglais et français). Ce choix est important car plus un modèle pourra supporter de langues, plus il devra avoir un nombre de paramètres élevés. Si la langue d'utilisation est connue à l'avance, il sera alors plutôt conseillé de sélectionner un modèle adaptée pour cette langue.
Modèle basés sur l'instruction : les modèles dits instruct-based sont des modèles adaptés pour recevoir des instructions. Autrement dit, ils sont parfaitement adaptés et optimisés pour répondre à des requêtes spécifiques telles que l'on pourrait les formuler à un assistant virtuel.
Intégration avec des applications : certains modèles ne sont pas capables d'interagir avec d'autres applications, ils sont limités à une conversation purement textuelle. Si l'on souhaite ainsi bénéficier d'une intégration avec d'autres applications (Microsoft Office, Outlook, etc), il est important de considérer un modèle pouvant faire appel à d'autres fonctions ou à des API tierces.
Fenêtre de contexte allongée : enfin, si les utilisateurs sont amenés à ajouter beaucoup d'informations à chaque requête, il peut être utile d'avoir une fenêtre de contexte allongée, c'est-à-dire du nombre de mots que le modèle peut traiter à chaque demande. En effet, plus la fenêtre est grande, plus le contexte peut être détaillé, notamment pour répondre à certaines demandes spécifiques où de nouvelles informations vont être rajoutées.

À découvrir : notre formation IA Générative

Leaderboards

Afin d'aider les entreprises à comparer facilement tous les modèles entre-eux, plusieurs plateformes en ligne existent afin de fournir des catalogues ou explorateurs de LLM open source et propriétaires.

LLM Explorer : ce leaderboard très complet et régulièrement mis à jour permet de comparer les modèles selon de nombreux critères. Il existe des filtres déjà appliqués sur certains groupes, notamment pour avoir les meilleurs modèles avec moins de 7 milliards de paramètres par exemple, ou ceux qui peuvent tenir dans 16 Go de mémoire GPU. Chaque modèle dispose d'un lien ainsi que d'un ensemble de ressources permettant de télécharger les fichiers lorsque ceux-ci sont disponibles.
HuggingFace Open LLM Leaderboard : ce leaderboard proposer de comparer tous les modèles disponibles sur la plateforme HuggingFace. Contrairement à LLM Explorer, il y a plus de paramètres techniques sur lesquels les entreprises peuvent filtrer, notamment sur la précision des nombres flottants, sur la quantization effectuée et sur de nombreuses métriques déjà calculées.
Can AI Code : uniquement spécialisé pour les modèles d'assistant de génération de code pour les développeurs, celui-ci fait parti des leaderboards spécialisés sur un seul cas d'usage.

LLM Extractum

Bien entendu, les entreprises peuvent elle-mêmes construire leurs propres leaderboards, mais cela nécessite du temps pour pouvoir évaluer tous les modèles candidats. Ces leaderboards permettent ainsi de faire économiser beaucoup de temps et d'argent aux entreprises.

Conclusion

Avec un nombre grandissant de modèles open source, le choix judicieux d'un LLM n'est pas toujours facile. Il convient ainsi de suivre plusieurs étapes pour sélectionner le modèle le plus adapté à chaque situation.

Le point le plus important consiste à identifier au mieux le besoin et cadrer le cas d'usage qui découlera de l'utilisation du modèle. En effet, cela permettra d'éliminer une grande partie des LLM candidats qui ne seront tout simplement pas adaptés à la situation.

Par la suite, des critères de performances, de ressources de calcul à disposition ainsi que de capacités du modèle pourront être analysés pour déterminer le LLM qui sera retenu.

LLM : savoir lequel choisir

Critères de comparaison

Utilisation et cas d'usage

Performances

Taille et consommation en ressources

Capacités du modèle

Leaderboards

Conclusion

Data Engineering

IA Générative

MLOps

Cloud & DevOps

À propos