Entraîné par le supercalculateur Jean Zay et impliquant de nombreux chercheurs CNRS, le plus grand modèle de langue multilingue et open science jamais créé vient d'être livré.
L'intelligence artificielle est là, et elle s'apprête - si ce n'est pas déjà fait - à toucher tous les aspects de nos vies, de la détermination de la structure tridimensionnelle des protéines aux recommandations de films. La production de textes est aussi concernée alors que les modèles de langue bénéficient des dernières innovations en matière d'intelligence artificielle comme de l'amélioration des performances des machines qui les font tourner.
"Le principal intérêt des modèles de langue tient à leur capacité à prédire correctement des séquences de mots à partir des mots précédents, explique Oliver Cappé, directeur adjoint scientifique de l'INS2I et directeur de recherche CNRS au DI ENS. Le modèle construit des représentations subtiles des phrases et des mots, qui lui permettent ensuite d'en capturer les caractéristiques lexicales, même s'il ne comprend pas la langue au sens strict du terme. Ces représentations lexicales sont appelées 'word embeddings'."
On retrouve par exemple ce principe lorsqu'un smartphone suggère automatiquement une réponse à un message ou le prochain mot d'un texto. L'application principale reste cependant la traduction automatique, mais on retrouve aussi la détection de sentiments, la modération de contenus, la rédaction de textes lisibles à partir de chiffres bruts, les chatbots capables de répondre à de simples questions, ainsi que diverses opérations de simplification comme les résumés automatiques.
"Les principaux modèles de langue disponibles présentent cependant de sérieuses barrières, souligne François Yvon, directeur de recherche CNRS au LISN. Ils sont très compliqués à examiner, et les entreprises qui les ont créés ne sont pas complètement transparentes sur leur conception et leur fonctionnement. Si on demande à un de ces modèles quelle est la couleur du cheval blanc d'Henri IV, il répond “blanc”. Cependant, nous n'avons aucun moyen de savoir si le modèle a appris “par coeur” la réponse, par exemple parce qu'on lui a déjà demandé, ou s'il l'a trouvée par ses propres moyens."
Ces modèles de langue sont en effet principalement issus des géants des nouvelles technologies (Google, Microsoft, etc.), qui préfèrent dévoiler le moins possible leurs secrets de fabrication. Autre problème: l'anglais est massivement utilisé au détriment des autres langues. Hugging Face, start-up fondée par des Français à New York et proposant une des principales plateformes mondiales de machine learning, a donc lancé à l'été 2021 le projet BigScience. Il vise à entraîner, sur un modèle de science ouverte et participative, le plus grand modèle de langue multilingue et open source: Bloom.
Soixante-douze pays, un millier de scientifiques
Séduits par le projet, de nombreux partenaires ont rejoint l'aventure jusqu'à atteindre un millier de chercheurs en provenance de soixante-douze pays. Ils sont aussi bien issus du monde académique que d'entreprises comme Airbus, Meta AI, Orange Labs, Mozilla ou Ubisoft. Le soutien du CNRS, de GENCI et de l'IDRIS a permis de franchir une étape indispensable: trouver une machine capable d'entraîner Bloom.
"Le CNRS a proposé une dotation sous forme de cinq millions d'heures de calcul sur le supercalculateur Jean Zay, un des plus puissants d'Europe, affirme François Yvon. Cela permet en plus de tester le supercalculateur sur un tel volume de données, ainsi que de monter les équipes en compétence. BigScience et son modèle Bloom n'auraient pas été possibles sans la puissance de Jean Zay."
BigScience a également reçu le soutien de l'État, dans le cadre de la stratégie nationale pour l'IA. "Dans la course mondiale au développement des modèles de langage, le modèle Bloom est le premier à intégrer largement la langue française en libre accès, se réjouit Sylvie Retailleau, ministre de l'Enseignement supérieur et de la Recherche. Il est donc le premier à disposition de la recherche, de l'innovation et de l'industrie françaises. Même si ces modèles nécessitent encore beaucoup d'investigations scientifiques et si leur impact énergétique nécessite une évaluation approfondie avant tout déploiement d'échelle, je suis fière que l'écosystème français en IA accueille un tel projet d'envergure internationale."
"Cet écosystème compte plus de 20 % de start-ups spécialisées en traitement automatique du langage, appuie Jean-Noël Barrot, ministre délégué au Numérique et aux Télécommunications. Ce dynamisme entrepreneurial constitue un véritable socle d'opportunités technologiques tant pour la langue française que pour l'économie et l'innovation. Je suis heureux que BigScience ait été soutenu par la Stratégie nationale pour l'IA."
Fort de ces différents appuis, BigScience a pu réaliser l'apprentissage de Bloom. Il prend un texte ou une phrase et n'en garde que le premier mot, puis tente de deviner le second, puis le troisième, etc. Il affine ses probabilités et ses statistiques jusqu'à atteindre le niveau attendu. Mais pour y parvenir, Bloom doit répéter l'exercice sur l'équivalent de plusieurs millions de livres. Cela demande un si grand nombre d'essais que seuls des supercalculateurs peuvent y parvenir en un temps raisonnable. Jean Zay aura ainsi entraîné Bloom pendant quatre mois, lui consacrant un quart de sa puissance totale grâce à quatre cents processeurs graphiques de pointe travaillant en parallèle. Pendant son apprentissage, Bloom a acquis la capacité de gérer 176 milliards de paramètres sur des textes.
"Les réseaux de neurones profonds permettent d'apprendre à représenter un texte sous forme de vecteurs numériques, précise François Yvon. Ainsi transformé, le texte peut recevoir de nombreux traitements qui facilitent la plupart des tâches de traitement automatique des langues."
Bloom a pour cela bûché en quarante-six langues à la fois, réparties sur des sources aussi variées que de la littérature ou des dépêches sportives. Plus l'approche et les sources sont vastes et génériques, plus le modèle est capable de remplir des tâches différentes. Les données n'ont de plus pas été triées en fonction de leur langue, car, paradoxalement, Bloom apprend mieux ainsi. Il est même plus efficace sur les langues habituellement sous représentées, voire absentes, des modèles d'IA que s'il s'était seulement entraîné sur elles.
Un travail préparatoire d'ingénierie, effectué en grande partie par Hugging Face, a cependant été nécessaire en amont afin de préparer les algorithmes à fonctionner à de telles échelles, ainsi que pour mettre en forme et vérifier les données. Elles ont en effet été aspirées automatiquement sur Internet, notamment sur Wikipédia, et peuvent présenter un contenu biaisé ou mal identifié par les algorithmes de récupération. Il a également fallu intégrer certains corpus de textes déjà disponibles, mais à accès payant.
De la recherche, pour la recherche
Mais sous quelle forme se présentera Bloom ? Teven Le Scao, doctorant à l'Université de Lorraine et chercheur chez Hugging Face, où il est notamment responsable de l'entraînement pour Big Science, distingue trois niveaux d'utilisation. Dans la plupart des cas, le modèle final tournera sur les machines de Hugging Face. "Le but, c'est que ma grand-mère puisse jouer sur une démo, sans avoir à coder", s'amuse Teven Le Scao. Ensuite, les gens qui le souhaitent pourront utiliser et détourner le modèle pour créer différentes IA. Cette possibilité gratuite demandera juste un accord sur la nature de la licence de l'outil final, qui garantira une utilisation responsable. Enfin, il sera possible de récupérer des artéfacts de l'entraînement afin de réaliser des expériences reproductibles, et donc de pousser la recherche sur ces modèles, ce qui n'est possible que grâce à un accès libre et ouvert à ces étapes.
"Bloom reste un outil de recherche, complète François Yvon. À la manière d'un grand télescope, il permet d'observer et de comprendre le fonctionnement de ces modèles." Des projets seront également menés pour mesurer l'empreinte carbone de tels modèles, et comprendre comment ils fonctionnent lorsqu'ils sont multilingues.
"Nous sommes également en train de développer des techniques pour utiliser Bloom sur des stations de calcul relativement petites, basées sur des architectures de huit processeurs graphiques, voire moins, poursuit Teven Le Scao. Évidemment, l'exécution sera plus lente, mais cela aidera quand même à diffuser le modèle. Chez Hugging Face, nous voulons que les travaux sur l'intelligence artificielle soient les plus ouverts et accessibles possibles, et que les chercheurs aient un maximum de contrôle et d'accès sur les modèles. Cela devrait d'ailleurs être la norme."