Forscher haben eine Künstliche Intelligenz entwickelt, die in der Lage ist, die Grenzen einer anderen KI ausfindig zu machen und zu umgehen, um Inhalte zu generieren, die normalerweise verboten sind.
Diese Technik, als "neugiergetriebenes Rote-Team" (curiosity-driven red teaming oder CRT) bekannt, nutzt eine KI, um immer gefährlichere und schädlichere Antworten von der Ziel-KI generieren zu lassen. Das Ziel ist es, die Prompts (Anfragen) zu identifizieren, die zur Erzeugung illegaler Inhalte führen, um die so getestete KI zu verbessern.
Das Konzept dieser Methode beruht auf dem Einsatz von verstärkendem Lernen. Die für die Erzeugung von Prompts verantwortliche KI wird für ihre "Neugier" belohnt, wenn sie es schafft, eine toxische Antwort von einem Sprachmodell wie ChatGPT hervorzurufen. Folglich wird sie dazu angeregt, neuartige und vielfältige Prompts zu produzieren.
Dieses System wurde erfolgreich am Open-Source-Modell LLaMA2 getestet und hat konkurrierende automatisierte Trainingssysteme übertroffen. Durch diese Methode hat die KI 196 Prompts generiert, die zu schädlichen Inhalten führten, selbst nach einer vorherigen Verfeinerung durch menschliche Operateure.
Die Forschung zeigt eine wichtige Entwicklung im Training von Sprachmodellen, was angesichts der zunehmenden Zahl von KI-Modellen und häufigen Updates durch Unternehmen und Labore essentiell ist. Es ist entscheidend, dass diese Modelle überprüft werden, bevor sie der Öffentlichkeit zugänglich gemacht werden, um unerwünschte Antworten zu verhindern und die Sicherheit der Nutzer zu gewährleisten.