Las inteligencias artificiales (IA) han alcanzado un umbral crítico: han agotado casi la totalidad del conocimiento humano disponible para su aprendizaje. Elon Musk, entre otros, ha dado la voz de alarma sobre este callejón sin salida tecnológico.
Esta situación está llevando a investigadores y empresas a explorar alternativas, como los datos sintéticos, generados por las propias IA. Aunque esta solución parece prometedora, plantea preguntas importantes sobre la calidad y la fiabilidad de los modelos futuros.
El fin de los datos humanos: un punto de inflexión para la IA
Los modelos de IA modernos, como ChatGPT o Bard, requieren cantidades astronómicas de datos para funcionar. Estos datos provienen de libros, artículos científicos, conversaciones en línea y otras fuentes. Sin embargo, el crecimiento exponencial de las necesidades de datos ha llevado a una escasez de recursos de calidad.
Elon Musk afirmó recientemente que todo el conocimiento humano había sido utilizado para entrenar a las IA, un hito alcanzado el año pasado. Esto ha llevado a un "colapso del modelo", también conocido como
model collapse. Esta limitación obliga a los investigadores a replantear los métodos de aprendizaje de los sistemas de inteligencia artificial.
Los datos sintéticos: una solución arriesgada
Los datos sintéticos, generados por IA, aparecen como una alternativa viable. Permiten reducir costes y evitar problemas relacionados con la privacidad. Por ejemplo, la startup Writer redujo en un sexto el coste de entrenamiento de su modelo Palmyra X 004 gracias a este método.
Sin embargo, este enfoque conlleva riesgos. Las IA entrenadas con datos sintéticos pueden producir resultados erróneos, un fenómeno conocido como "alucinación". Además, estos datos pueden amplificar los sesgos presentes en los modelos iniciales, comprometiendo su fiabilidad.
Las consecuencias para el futuro de la IA
El uso creciente de datos sintéticos podría provocar una degradación en la calidad de los modelos de IA. Investigadores de la Universidad de Stanford han demostrado que los modelos entrenados con más del 50 % de datos artificiales cometen más errores factuales.
Por otro lado, esta dependencia de los datos sintéticos podría limitar la creatividad de las IA. Los modelos podrían quedar atrapados en un bucle, reproduciendo los mismos patrones sin innovación. Esta situación podría obligar a las empresas a revisar sus estrategias de desarrollo.
Hacia una colaboración y regulación reforzadas
Ante estos desafíos, las empresas podrían optar por modelos más compactos y especializados. La colaboración entre organizaciones, para compartir datos reales, también podría volverse esencial.
En paralelo, será necesario establecer marcos regulatorios más estrictos para regular el uso de datos sintéticos. Estas medidas buscarán limitar los riesgos éticos y técnicos asociados a esta práctica.