Large Language Models (LLM) : tout savoir

Avec l'émergence de ChatGPT fin 2022, il s'est passé une véritable révolution sur l'utilisation des systèmes d'IA, et plus précisément sur les systèmes de génération de textes. En effet, la mise en avant des Large Language Models (LLM) a été favorisée par leur implémentation quasi-immédiate dans de nombreuses entreprises de toutes tailles, et même public plus large que jamais auparavant.

Pour autant, il est essentiel de bien comprendre que les LLM ne sont pas juste une nouveauté produite par OpenAI, mais bien fondés sur une architecture de réseaux de neurones imaginée il y a déjà plusieurs années par Google : les Transformers. Ces architectures ont révolutionné la compréhension du langage naturel (NLU) bien avant que ChatGPT devienne aussi populaire.

Dans cet article, nous allons présenter en détails le fonctionnement des LLM, leurs cas d'utilisation, mais également leurs limites qu'il faut avoir en tête avant de les utiliser à grande échelle.

Qu'est-ce qu'un Large Language Model (LLM) ?

Les modèles d'IA qui cherchent à comprendre, interpréter et générer du langage naturel font partie de la famille LLM. Ce sont des réseaux de neurones profonds, souvent basés sur l'architecture des Transformers, capables de traiter une grande quantité d'informations textuelles. Les LLM sont confrontés à des corpus de texte gigantesques, parfois composés de plusieurs milliards de mots, ce qui en fait une composante essentielle.

Pour bien comprendre le fonctionnement des LLM ainsi que leurs capacités, il est important de décomposer le processus de création en plusieurs étapes.

L'embedding

Avant toute chose, il est bien important de comprendre le principe de représentation vectorielle des mots. En effet, contrairement aux apparences, un LLM ne traite pas les mots tels que nous pouvons les concevoir : il représente chaque mot existant par un vecteur.

Cette représentation est appelée le Word Embedding (ou prolongement lexical en français), et elle présente de nombreux avantages. Tout d'abord, elle permet d'encoder numériquement des mots, ce qui est indispensable pour un algorithme comme le LLM qui doit travailler uniquement sur des nombres pour effectuer toute sorte de calculs. Il est donc beaucoup plus facile de gérer des vecteurs plutôt que des mots.

Word Embedding

Un autre avantages important de cette représentation de vecteur est la capacité à détecter des similarités entre les mots. En effet, les vecteurs de mots sont calculés par d'autres algorithmes qui vont optimiser leurs représentations en fonction des contextes où ils sont utilisés. Ainsi, si le mot ordinateur se retrouve très fréquemment avec le mot windows, un LLM comprendra facile que l'on parle de problème informatique dans la phrase mon windows a planté.

Avant l'avènement des LLM, les vecteurs d'embedding étaient stockés dans des fichiers, mais avec la nécessité de représenter de plus en plus de mots possibles, dans de nombreuses langues à la fois, des bases de données vecteurs comme Pinecone sont apparues, pour faciliter les requêtes de lecture et d'écriture de vecteurs.

Pré-entraînement

Cette étape cruciale permet au LLM de développer une compréhension générale de la langue et de ses nuances en lui présentant une variété de textes. Le modèle apprend des tâches de base comme prédire le mot suivant dans une phrase ou terminer des phrases incomplètes pendant le pré-entraînement. En général, cela se fait sans supervision particulière, le modèle ingère une immense quantité de données pour en déterminer automatiquement les motifs et les structures linguistiques.

Cette partie est la plus contraignante en termes de ressources de calculs, car cela nécessite d'innombrables ressources et beaucoup de temps d'entraînement. Elle nécessite également d'importants moyens financiers car les coûts peuvent très rapidement exploser du fait de la demande en puissance de calcul.

Fine-tuning

Lors de cette dernière phase, il est d'usage de se baser sur un modèle LLM existant, dit « modèle pré-entraîné » qui se veut suffisamment généraliste pour ensuite se spécialiser. Effectivement, il serait bien trop coûteux et contre-productif de calibrer soi-même son propre LLM sur l'immensité de données qui existe. Ainsi, les Data Scientists se basent sur des LLM pré-entraînés qui peuvent déjà bien comprendre les demandes formulées.

Source : Super Annotate

Ainsi, la plupart des projets LLM utilisent des LLM pré-entraînés, open source ou non, comme GPT-4, BLOOM, Mistral ou encore Llama 2. Ces modèles sont ensuite fine-tunés (ajustés) sur un ensemble spécifique de données, que ce soit sur un secteur particulier (gestion du risque, service clients) ou pour un contexte particulier.

Exemples d'application des LLM

En seulement quelques semaines après l'annonce de ChatGPT par OpenAI, tous les secteurs ont souhaité prendre le pas et intégrer des cas d'usages pouvant être supportés par les LLM.

Documentation interne

Pour les entreprises, un des cas d'usage où les LLM ont le plus montré une réelle valeur ajoutée concerne la documentation interne. En effet, pour de nombreuses entreprises, il peut être difficile de rechercher des informations parmi tous les documents qu'elle contient (fichier PDF, Word, Excel, présentations, etc). Avec un LLM fine-tuné sur tous les documents de l'entreprise, il peut ensuite être facile de poser une question et retrouver une informations contenue dans un document, même s'il en existe des dizaines ou centaines de milliers.

En général, ces cas d'usages sur la documentation interne utilise des techniques dites de RAG, pour Retrieval-Augmented Generation. Cette méthode intègre un mécanisme de recherche d'informations : plutôt que de se baser uniquement sur le contexte appris lors de la phase d'entraînement, avec le RAG, on utilise une base de données externe ou un ensemble de documents afin de permettre au LLM d'effectuer des recherches et d'utiliser des informations pertinentes lors de la génération de réponses.

Comme son nom l'indique, cette méthode est composée de deux étapes.

Une première étape nommée Retrieval, où lorsqu'une une requête est formulée, l’algorithme recherche dans un ensemble de données pour retrouver des informations pertinentes.
Une deuxième étape de Generation où cette fois-ci le LLM est utilisé pour générer une réponse en se basant à la fois sur la requête formulée et sur le contexte de la conversation, mais aussi en utilisant des extraits obtenus lors de l'étape précédente.

RAG

Ainsi, avec cette méthode, l'information obtenue par l'algorithme comporte toutes les informations demandées, tout en étant parfaitement lisible et écrite dans un langage naturel.

Extraction d'informations

Toujours dans la même lignée, les LLM peuvent également être utilisés pour l'extraction d'informations pertinentes à partir de grandes quantités de texte ou pour produire des résumés concis et informatifs. Cela se veut notamment utile pour la création de présentations ou de notes visant à fournir une information synthétique.

Là-aussi, les RAG peuvent être utilisés, et plus précisément la première étape Retrieval où la recherche des informations dans une base de données ou dans un ensemble de documents est effectuée. En revanche, cette fois-ci, on ne cherche plus à récupérer un extrait ou un passage spécifique, mais à synthétiser un ensemble d'informations en un court document.

À découvrir : notre formation IA Générative

C'est notamment le cas lorsqu'il faut rédiger des présentations ou résumer des informations essentielles contenues dans des documents qui peuvent comporter des dizaines ou centaines de pages.

Intégration de services

En permettant une communication fluide et naturelle entre les systèmes, les LLM facilitent également l'intégration entre différents services. Il est dorénavant possible de pouvoir intégrer de nombreuses chaînes d'actions sans difficultés, là où historiquement, elles étaient difficiles à mettre en place. C'est notamment le cas pour les assistants capables de produire des graphiques, créer des fichiers à notre place ou même utiliser des services tiers ou API.

De nombreux outils comme LangChain, une bibliothèque open-source en Python conçue pour construire des pipelines et des applications de langage naturel, disposent d'un ensemble d'outils intégrés à leur écosystème. Par exemple, cela permet d'utiliser des recherches Google pour obtenir des informations en temps réel, ou de produire des documents Excel résumant des informations dans plusieurs fichiers Word.

Cette intégration de services est une réelle plus-value pour les applications des LLM, puisqu'elle ne permet pas seulement de générer du texte : elle offre la flexibilité et la personnalisation plus avancée par le LLM pour intégrer lui-même ses réponses dans des documents ou via des services tiers.

Aide au développement

Enfin, chez les développeurs, les outils d'aide à la rédaction de code comme GitHub Copilot, ont permis une meilleure productivité, surtout pour développer des blocs de code qui étaient décorrélés avec le reste des projets.

De plus en plus de développeurs utilisent ainsi les LLM comme assistant de rédaction de code comme GitHub Copilot, à la fois pour aider au développement de certains blocs de code, mais aussi pour détecter les éventuelles erreurs algorithmiques, les problèmes de sécurité ou encore améliorer certaines portions.

Limites des LLM

Malgré leur grande puissance, les LLM ont des limites qui doivent être prises en considération. Les modèles absorbent à la fois la langue et les biais des données d'entraînement. Le modèle pourrait reproduire des stéréotypes ou des préjugés dans le texte utilisé pour l'apprentissage, ce qui présente un risque important, voir légal lorsque ce dernier est exposé au grand public (comme un service client par exemple).

Un autre phénomène assez présent chez les LLM est l'hallucination : le modèle génère alors des informations qui semblent plausibles mais qui ne sont pas étayées, ou même tout simplement fausses. Cela peut notamment être problématique dans les situations où l'exactitude des informations est importante.

De plus, les LLM ont une limite quant à la quantité de texte qu'ils peuvent prédire en une seule instance. Malgré les avancées technologiques, cette fenêtre contextuelle, c'est-à-dire le nombre de mots que l'on peut fournir en entrée, demeure une contrainte notable. Ainsi, pour de nombreux LLM, il peut être difficile d'utiliser des documents à la volée en raison de la limite du nombre de mots.

Enfin, il est également à noter que les coûts d'inférence (prédiction) des LLM peuvent être assez importants, car cela nécessite des serveurs avec beaucoup de mémoire afin d'exécuter les algorithme.

Conclusion

Bien que ChatGPT ait contribué à démocratiser l'usage de l'IA Générative dans de nombreux secteurs, le socle des LLM existe depuis quelques années maintenant. Leurs applications semblent presque illimitées et continueront de changer de nombreux domaines.

Il est néanmoins nécessaire de ne pas négliger les difficultés liées à leur développement et leur intégration dans les SI existants. En effet, comme tout projet IA, cette architecture de code source est plus complexe et nécessite plus de services qu'une architecture d'application plus classique. De plus, il est essentiel de qualifier en amont le besoin exact, ainsi que d'avoir à disposition un ensemble de documentation pertinent pour adapter le LLM à son cas d'usage spécifique.

Pour autant, ces contraintes n'ont pas freiné l'adoption des LLM en entreprise, en témoigne le nombre grandissant de projets en cours de développement, les communications des grands acteurs du marché et la volonté de former leurs équipes sur ces sujets d'IA Générative.