[News] Google: FlauBERT à la rescousse du traitement automatique du français
Modérateur : Modérateurs
-
- Site Admin
- Messages : 23771
- Inscription : 02/06/2004 - 18:58:53
- Activité : Ingénieur
- Localisation : 78
[News] Google: FlauBERT à la rescousse du traitement automatique du français
De nombreux outils sont développés pour le traitement automatique du langage naturel, mais ils sont généralement en anglais et doivent être reconfigurés pour chaque langue. Avec FlauBERT, des chercheurs du LIG, du LAMSADE et du LLF proposent une version française de BERT, le dernier modèle de langue de Google.
À la croisée de la linguistique et de l’informatique, le traitement automatique du langage naturel scrute la parole et les écrits pour différentes applications: saisie par...
Re: [News] Google: FlauBERT à la rescousse du traitement automatique du français
Cet article voudrait promouvoir une technologie susceptible de protéger la langue française mais ses auteurs sont visiblement bien pollués par le franglais, en témoigne le mot "benchmark" qui, à ma connaissance, ne figure pas dans le Littré.(...) son benchmark est librement disponible en ligne.
A partir de là, on peut légitimement douter de la qualité de leur travail.
C'est une grande misère de n'avoir pas assez d'esprit pour parler, ni assez de jugement pour se taire. (La Bruyère)
Re: [News] Google: FlauBERT à la rescousse du traitement automatique du français
cet article fait plaisir à lire
j'avais rédigé un mémoire en 1995 sur la reconnaissance manuscrite/vocale et l'une des pistes que j'avais abordé pour améliorer la reconnaissance était de s'intéresser à la sémantique
En effet, scanner un document ou capter du son comporte toujours du bruit (qualité du doc, écriture manuscrite, bruits de fond pour le son, accents, etc), donc, on a qu'une probabilité d'avoir reconnu quelque chose. Déjà à l'époque, on comparait avec un dictionnaire pour vérifier l'existence de ce qui a été vérifié pour augmenter la certitude.
Mais parfois, il reste une incertitude pour plusieurs mots existants dans le dico (ex: classe ou chasse ?)
Et c'est là que la sémantique entre en jeu : selon le contexte dans lequel on utilise le mot (je vais à la... chasse, car je vais à la classe n'est pas correct sémantiquement parlant), la probabilité augmente pour l'une des solutions il aura fallu une bonne vingtaine d'années pour voir concrètement cette solution
Et la dernière piste que j'avais évoqué, c'est étudier l'ensemble de la conversation/paragraphe/page/...
En effet, "je suis en classe" ou "je suis en chasse" sont tous les 2 sémantiquement corrects.
Mais en étudiant le contexte (si c'est de l'écrit, on regarde de quoi parle le texte/livre par ex, si c'est de l'oral, selon ce qui a été dit avant, voire même les informations que l'on possède sur la personne qui parle, tout à fait possible avec Google ), on va pouvoir choisir l'une des options avec un degré de certitude plus important
j'avais rédigé un mémoire en 1995 sur la reconnaissance manuscrite/vocale et l'une des pistes que j'avais abordé pour améliorer la reconnaissance était de s'intéresser à la sémantique
En effet, scanner un document ou capter du son comporte toujours du bruit (qualité du doc, écriture manuscrite, bruits de fond pour le son, accents, etc), donc, on a qu'une probabilité d'avoir reconnu quelque chose. Déjà à l'époque, on comparait avec un dictionnaire pour vérifier l'existence de ce qui a été vérifié pour augmenter la certitude.
Mais parfois, il reste une incertitude pour plusieurs mots existants dans le dico (ex: classe ou chasse ?)
Et c'est là que la sémantique entre en jeu : selon le contexte dans lequel on utilise le mot (je vais à la... chasse, car je vais à la classe n'est pas correct sémantiquement parlant), la probabilité augmente pour l'une des solutions il aura fallu une bonne vingtaine d'années pour voir concrètement cette solution
Et la dernière piste que j'avais évoqué, c'est étudier l'ensemble de la conversation/paragraphe/page/...
En effet, "je suis en classe" ou "je suis en chasse" sont tous les 2 sémantiquement corrects.
Mais en étudiant le contexte (si c'est de l'écrit, on regarde de quoi parle le texte/livre par ex, si c'est de l'oral, selon ce qui a été dit avant, voire même les informations que l'on possède sur la personne qui parle, tout à fait possible avec Google ), on va pouvoir choisir l'une des options avec un degré de certitude plus important
Re: [News] Google: FlauBERT à la rescousse du traitement automatique du français
où avez-vous lu que cette technonologie est susceptible de protéger la langue française ? en quoi la qualité d'un article sur la reconnaissance par une IA serait remis en cause par l'utilisation d'un mot anglais (pour que ce soit du franglais, il aurait fallu par ex conjuguer le mot, ex: "benchmarké") ?POB a écrit : ↑20/01/2020 - 10:49:43Cet article voudrait promouvoir une technologie susceptible de protéger la langue française mais ses auteurs sont visiblement bien pollués par le franglais, en témoigne le mot "benchmark" qui, à ma connaissance, ne figure pas dans le Littré.(...) son benchmark est librement disponible en ligne.
A partir de là, on peut légitimement douter de la qualité de leur travail.
Par ailleurs, sachez qu'une langue est vivante parce qu'elle évolue avec son peuple. L'académie française, c'est bien, mais ce n'est pas l'unique référence : si le peuple décide d'utiliser certains mots anglais sans filtre, parce que, par ex, cela comporte de sensibles différences sémantiques avec leur traduction académique, ce sera comme cela et pas autrement... jusqu'à ce qu'il entre dans le Littré
Enfin, ce mot anglais est utilisé dans un lien vers un site écrit entièrement en anglais... ceci expliquant cela
Je vous invite à suivre ce lien (d'autres existent évidemment) : https://www.courslangues.com/paris/cour ... aduisibles
Vous découvrirez pourquoi nous (même vous! ) utilisons le mot "kitsch"
-
- Messages : 9
- Inscription : 10/02/2019 - 12:30:21
- Activité : Salarié
Re: [News] Google: FlauBERT à la rescousse du traitement automatique du français
Google est rarement dépassé, mais deepl est aujourd'hui le traducteur n°1 sur le marchéAdrien a écrit : ↑20/01/2020 - 8:00:09De nombreux outils sont développés pour le traitement automatique du langage naturel, mais ils sont généralement en anglais et doivent être reconfigurés pour chaque langue. Avec FlauBERT, des chercheurs du LIG, du LAMSADE et du LLF proposent une version française de BERT, le dernier modèle de langue de Google.
À la croisée de la linguistique et de l’informatique, le traitement automatique du langage naturel scrute la parole et les écrits pour différentes applications: saisie par la voix, traduction et correction automatiques, recherche intelligente dans un corpus de textes ou sur Internet pour le référencement naturel... Les mots sont alors transformés en objets mathématiques afin d’être utilisés par une intelligence artificielle, en particulier par des réseaux de neurones.
Le traitement automatique du langage naturel a été chamboulé en 2018 par la publication de BERT, un modèle de langue proposé par Google. « Avant, chaque mot était manipulé sous forme d’un vecteur unique, explique Laurent Besacier, professeur à l’université Grenoble Alpes. Des modèles comme Word2vec décrivaient de façon unique des mots pourtant polysémiques, comme “avocat”. »
À l’inverse, BERT adapte sa représentation vectorielle des mots en fonction du contexte et fait ainsi la différence selon que l’on parle d’un fruit ou d’un juriste. C’est d’ailleurs ainsi qu’il s’entraîne: le modèle prend une phrase et masque un ou plusieurs mots au hasard, qu’il tente ensuite de deviner. Ce principe le rend extrêmement performant, mais BERT a besoin d’être modifié pour chaque langue autre que l’anglais.
Des chercheurs du Laboratoire d’informatique de Grenoble (LIG, CNRS/Univ. Grenoble Alpes, Seo), du Laboratoire d’analyse et modélisation de systèmes pour l’aide à la décision (LAMSADE, CNRS/Université Paris Dauphine-PSL) et du Laboratoire de linguistique formelle (LLF, CNRS/Université Paris Diderot) ont donc développé FlauBERT, une version française de BERT.
Googleplex: une des directions du siège social de Google
« FlauBERT, appris selon un entraînement non supervisé, évite aux développeurs de partir de zéro lorsqu’ils développent de nouvelles tâches de traitement automatique du langage naturel: c’est le concept du préentraînement. »
Ils l’ont entraîné à partir d’un corpus de 71 gigaoctets de textes dans la langue de Molière, composés de tout Wikipédia en français, de plusieurs années du journal le Monde, des ouvrages francophones du projet Gutenberg (dont bien entendu du Flaubert) ou encore des transcriptions des débats du Parlement européen. « Tout est précisément renseigné, insiste Laurent Besacier, car les chercheurs ont besoin de savoir comment FlauBERT a appris afin de mieux s’en servir. » Dans un même souci d’accessibilité, son benchmark est librement disponible en ligne.
Pour la phase d’apprentissage, les chercheurs ont pu utiliser le supercalculateur Jean Zay, implanté par GENCI à l’Institut du développement et des ressources en informatique scientifique du CNRS (IDRIS). L’imposante machine, qui effectue jusqu’à 14 millions de milliards d’opérations en virgule flottante par seconde, était alors en cours de rodage et un appel à projets avait été lancé pour le tester. Comme l’explique Alexandre Allauzen, chercheur dans l’équipe MILES du LAMSADE et Professeur à l’ESPCI, « il fallait sauter sur cette occasion unique de créer une ressource pour le français de cette envergure. Pour cela nous avons monté l’équipe FlauBERT pour exploiter cette puissance de calcul indispensable au projet mais qui nous était inaccessible et malheureusement réservée jusqu’ici au GAFAM. »
« Nous avons échangé très efficacement pour signaler les bugs, tout en étant soutenus lorsque nous avons dû adapter nos algorithmes à Jean Zay», détaille Didier Schwab, maître de conférences à l’université Grenoble Alpes et membre du LIG comme Laurent Besacier. Les chercheurs ont également mis au point FLUE, un banc de test qui permet d’évaluer les performances des systèmes automatiques de traitement du français.
« FLUE teste la capacité des modèles à accomplir certaines tâches, comme la désambiguation de sens, la capacité à paraphraser ou l’analyse de sentiments d’un texte, c’est-à-dire savoir si une revue de produit est positive ou négative... » précise Didier Schwab. Les chercheurs espèrent à présent voir leur communauté se saisir de ces outils novateurs pour faire avancer le traitement automatique du langage naturel en français.
Références
Hang Le, Loïc Vial, Jibril Frej, Vincent Segonne, Maximin Coavoux, Benjamin Lecouteux, Alexandre Allauzen, Benoît Crabbé, Laurent Besacier, Didier Schwab, Sharkcom. FlauBERT: Unsupervised Language Model Pre-training for French. 2019
https://arxiv.org/abs/1912.05372
https://github.com/getalp/Flaubert
Source: CNRS INS2I
Re: [News] Google: FlauBERT à la rescousse du traitement automatique du français
Je déterre un peu le sujet mais je trouve qu'avec l'arrivée des LLM sur le marché du "grand public", Google est un peu à la ramasse. Gemini et Bard sont assez loin derrière Claude (Anthropic) et Mistral (cocorico c'est Français). Et je ne parle même pas d'Open AI... Globalement Google reste excellent sur la partie SEO (même si ça a tendance à changer, cf cet article plutôt bien fait). Qu'en pensez-vous ?