Künstliche Intelligenzen (KIs) haben einen kritischen Punkt erreicht: Sie haben nahezu das gesamte verfügbare menschliche Wissen für ihr Lernen erschöpft. Elon Musk warnt gemeinsam mit anderen vor dieser technologischen Sackgasse.
Diese Situation zwingt Forscher und Unternehmen dazu, Alternativen zu erkunden, insbesondere synthetische Daten, die von den KIs selbst generiert werden. Obwohl diese Lösung vielversprechend erscheint, wirft sie wichtige Fragen zur Qualität und Zuverlässigkeit zukünftiger Modelle auf.
Das Ende der menschlichen Daten: Eine Wende für die KI
Moderne KI-Modelle wie ChatGPT oder Bard benötigen astronomische Mengen an Daten, um zu funktionieren. Diese Daten stammen aus Büchern, wissenschaftlichen Artikeln, Online-Gesprächen und anderen Quellen. Das exponentielle Wachstum des Datenbedarfs hat jedoch zu einem Mangel an qualitativ hochwertigen Ressourcen geführt.
Elon Musk hat kürzlich behauptet, dass das gesamte menschliche Wissen zur Schulung von KIs genutzt wurde, ein Meilenstein, der im letzten Jahr erreicht wurde. Dies führt zu einem "Modellzusammenbruch", auch bekannt als
model collapse. Diese Einschränkung zwingt Forscher dazu, die Lernmethoden von KI-Systemen neu zu überdenken.
Synthetische Daten: Eine riskante Lösung
Synthetische Daten, die von KIs generiert werden, erscheinen als eine praktikable Alternative. Sie ermöglichen es, Kosten zu senken und Probleme im Zusammenhang mit der Privatsphäre zu vermeiden. Beispielsweise hat das Startup Writer die Schulungskosten seines Modells Palmyra X 004 durch diese Methode um das Sechsfache reduziert.
Allerdings birgt dieser Ansatz Risiken. KIs, die mit synthetischen Daten trainiert werden, können fehlerhafte Ergebnisse produzieren, ein Phänomen, das als "Halluzination" bezeichnet wird. Darüber hinaus können diese Daten die in den ursprünglichen Modellen vorhandenen Verzerrungen verstärken und deren Zuverlässigkeit beeinträchtigen.
Die Folgen für die Zukunft der KI
Die zunehmende Nutzung synthetischer Daten könnte zu einer Verschlechterung der Qualität von KI-Modellen führen. Forscher der Stanford University haben gezeigt, dass Modelle, die mit mehr als 50 % künstlichen Daten trainiert werden, häufiger faktische Fehler machen.
Darüber hinaus könnte diese Abhängigkeit von synthetischen Daten die Kreativität der KIs einschränken. Die Modelle könnten sich im Kreis drehen und immer wieder die gleichen Muster ohne Innovation reproduzieren. Diese Situation könnte Unternehmen dazu zwingen, ihre Entwicklungsstrategien zu überdenken.
Hin zu verstärkter Zusammenarbeit und Regulierung
Angesichts dieser Herausforderungen könnten sich Unternehmen auf kompaktere und spezialisierte Modelle konzentrieren. Die Zusammenarbeit zwischen Organisationen, um reale Daten zu teilen, könnte ebenfalls entscheidend werden.
Gleichzeitig müssen strengere regulatorische Rahmenbedingungen geschaffen werden, um die Nutzung synthetischer Daten zu regeln. Diese Maßnahmen zielen darauf ab, die ethischen und technischen Risiken zu begrenzen, die mit dieser Praxis verbunden sind.