Les intelligences artificielles (IA) ont atteint un seuil critique: elles ont épuisé la quasi-totalité des connaissances humaines disponibles pour leur apprentissage. Elon Musk, parmi d'autres, tire la sonnette d'alarme sur cette impasse technologique.
Cette situation pousse les chercheurs et entreprises à explorer des alternatives, notamment les
données synthétiques, générées par les IA elles-mêmes. Si cette solution semble prometteuse, elle soulève des questions majeures sur la qualité et la
fiabilité des modèles
futurs.
La fin des données humaines: un tournant pour l'IA
Les modèles d'IA modernes, comme ChatGPT ou Bard, nécessitent des quantités astronomiques de données pour fonctionner. Ces données proviennent de livres, d'articles scientifiques, de conversations en ligne et d'autres sources. Cependant, la croissance exponentielle des besoins en données a conduit à une pénurie de ressources qualitatives.
Elon Musk a récemment affirmé que la totalité des connaissances humaines avait été exploitée pour entraîner les IA, un cap atteint l'année dernière. C'est ainsi qu'on arrive à un "effondrement de modèle", autrement appelé
model collapse. Cette limitation oblige les chercheurs à repenser les méthodes d'
apprentissage des systèmes d'
intelligence artificielle.
Les données synthétiques: une solution risquée
Les données synthétiques, générées par des IA, apparaissent comme une alternative viable. Elles permettent de réduire les coûts et d'éviter les problèmes liés à la vie privée. Par exemple, la startup Writer a divisé par six le coût de formation de son modèle Palmyra X 004 grâce à cette méthode.
Cependant, cette approche comporte des risques. Les IA entraînées sur des données synthétiques peuvent produire des résultats erronés, un phénomène appelé "hallucination". De plus, ces données peuvent amplifier les biais présents dans les modèles initiaux, compromettant leur fiabilité.
Les conséquences pour l'avenir de l'IA
L'utilisation croissante de données synthétiques pourrait entraîner une dégradation de la qualité des modèles d'IA. Des chercheurs de l'université de Stanford ont montré que les modèles entraînés sur plus de 50 % de données artificielles commettent davantage d'erreurs factuelles.
Par ailleurs, cette dépendance aux données synthétiques pourrait limiter la créativité des IA. Les modèles risquent de tourner en rond, reproduisant les mêmes schémas sans innovation. Cette situation pourrait obliger les entreprises à revoir leurs stratégies de développement.
Vers une collaboration et une régulation renforcées
Face à ces enjeux, les entreprises pourraient se tourner vers des modèles plus compacts et spécialisés. La collaboration entre organisations, pour partager des données réelles, pourrait également devenir essentielle.
En parallèle, des cadres réglementaires plus stricts devront être mis en place pour encadrer l'utilisation des données synthétiques. Ces mesures viseront à limiter les risques éthiques et techniques associés à cette pratique.