🖋️ Die robustesten Sicherheitssysteme von KI lassen sich von einfachen Gedichten überlisten

Veröffentlicht von Cédric,
Autor des Artikels: Cédric DEPOND
Quelle: arXiv
Andere Sprachen: FR, EN, ES, PT
Die Eleganz eines Verses und die Subtilität einer Metapher haben eine erstaunliche Auswirkung auf die ausgefeiltesten künstlichen Intelligenzen. Die vom Icaro-Labor in Italien durchgeführte Forschung beleuchtet eine überraschende Schwachstelle: Die poetische Formulierung von Anfragen kann die Schutzmaßnahmen außer Kraft setzen, die entwickelt wurden, um die Erzeugung gefährlicher Inhalte zu verhindern.

Diese Entdeckung wirft grundlegende Fragen darüber auf, wie diese Systeme Sprache tatsächlich interpretieren und wie robust die Sicherheitsvorkehrungen sind, die sie umgeben.


Die großen Sprachmodelle, die Grundlage moderner Chatbots sind, werden üblicherweise darauf trainiert, explizite Anfragen zu sensiblen Themen zu erkennen und abzulehnen. Die italienische Studie zeigt jedoch, dass eine einfache Umformulierung derselben Anfragen in poetischer oder rätselhafter Form ihre Urteilsfähigkeit erheblich beeinträchtigt. Die Forscher testeten 25 Modelle von führenden Unternehmen wie Google, OpenAI und Meta.

Die Ergebnisse deuten darauf hin, dass diese Systeme angesichts speziell gestalteter Gedichte in alarmierendem Maße verbotene Antworten liefern und beispielsweise Verfahren zur Waffenherstellung detailliert beschreiben. Das erinnert an unseren vorherigen Artikel, in dem wir darauf hinwiesen, dass das Schreiben in Hexadezimal das Sicherheitssystem der KI umgehen kann.

Die verblüffende Wirksamkeit "manipulativer Gedichte"


Die Experimente nutzten zwei Methoden, um diese umgeleiteten Aufforderungen zu erstellen. Die erste basierte auf der manuellen Erstellung von etwa zwanzig Gedichten auf Italienisch und Englisch, die eindeutig verbotene Aufforderungen enthielten. Diese handgefertigten Werke erwiesen sich als äußerst effektiv und erreichten im Durchschnitt eine Erfolgsrate von 62 %, um die Schutzmechanismen der Chatbots zu überwinden. Die zweite Methode setzte ein KI-Modell ein, um automatisch über tausend gefährliche Anfragen aus einer Referenzdatenbank in Gedichte umzuwandeln. Dieser automatisierte Ansatz erreichte eine Erfolgsquote von 43 %.

Die Leistung variiert erheblich von Modell zu Modell. Einige, wie Gemini 2.5 Pro von Google, reagierten auf alle poetischen Aufforderungen unangemessen. Im Gegensatz dazu zeigten kompaktere Versionen wie GPT-5 nano von OpenAI vollständigen Widerstand. Eine bemerkenswerte Beobachtung deutet darauf hin, dass insgesamt kleinere Modelle weniger anfällig für diese Form der Manipulation zu sein scheinen als ihre größeren und komplexeren Gegenstücke. Dieser Unterschied deutet darauf hin, dass sprachliche Raffinesse paradoxerweise eine Schwachstelle darstellen könnte.

Die Natur dieser Angriffe selbst wirft Fragen auf. Für einen menschlichen Leser bleibt die zugrunde liegende Absicht des Gedichts oft transparent. Die verwendeten Metaphern verschleiern, obwohl stilisiert, die eigentliche Anfrage nicht grundlegend. Dennoch scheint die künstliche Intelligenz, deren Funktionsweise auf der statistischen Vorhersage von Wortsequenzen basiert, durch die ungewöhnliche Struktur und den eigenen Rhythmus der poetischen Sprache gestört zu werden. Diese Diskrepanz zwischen menschlicher Wahrnehmung und algorithmischer Analyse bildet den Kern des identifizierten Problems.

Die Implikationen für Sicherheit und Alignment der Systeme


Diese Schwachstelle geht über den Rahmen einer bloßen akademischen Kuriosität hinaus. Sie weist auf eine potenzielle Grenze der aktuellen Methoden des "Sicherheits-Alignments" hin, die darauf abzielen, das Verhalten von Modellen auf ethische Prinzipien abzustimmen. Die Filter scheinen hauptsächlich darauf trainiert zu sein, standardmäßige und explizite Textmuster zu erkennen. Sobald sich der Ausdruck durch literarische Kreation von diesen konventionellen Schemata entfernt, nimmt ihre Wirksamkeit erheblich ab. Dies stellt die Frage nach der tatsächlichen Tiefe des Verständnisses der Modelle.

Die Leichtigkeit, mit der diese "präparierten Gedichte" manuell oder automatisch generiert werden können, stellt ein greifbares Risiko dar. Ein böswilliger Akteur könnte diese Lücke ausnutzen, um Anleitungen, die die Einschränkungen umgehen, in großem Maßstab zu produzieren, um sensible oder gefährliche Informationen zu erhalten. Die Forscher hielten es für notwendig, neben den betroffenen Unternehmen auch die Strafverfolgungsbehörden über ihre Entdeckungen zu informieren, aufgrund der kritischen Natur einiger während ihrer Tests generierter Inhalte.

Die Zukunft der Absicherung künstlicher Intelligenzen könnte einen differenzierteren Ansatz erfordern. Es geht nicht mehr nur darum, Schlüsselwörter oder Standardphrasen zu blockieren, sondern eine robustere Einschätzung der Nutzerabsicht zu erreichen, unabhängig von ihrer stilistischen Einkleidung. Die Forscher des Icaro-Labors planen, ihre Arbeit fortzusetzen, möglicherweise in Zusammenarbeit mit Dichtern, um die beteiligten linguistischen Mechanismen besser zu verstehen und dazu beizutragen, die Systeme gegen diese elegante, aber potenziell schädliche Art der Manipulation zu stärken.

Um weiterzugehen: Wie funktionieren die Sicherheitsvorkehrungen (oder das "Alignment") von Chatbots?


Das Alignment von KI-Systemen ist der Prozess, der sicherstellen soll, dass ihre Handlungen und Antworten mit menschlichen Absichten und Werten übereinstimmen. Bei Chatbots bedeutet dies, Kontrollschichten zu integrieren, die jede Anfrage und jede potenzielle Antwort analysieren. Diese Systeme bewerten, ob der generierte Inhalt ethisch, legal und konform mit den Unternehmensrichtlinien ist.

Diese Sicherheitsvorkehrungen werden oft über einen Satz von Regeln und ein separates Klassifizierungsmodell implementiert. Wenn ein Benutzer eine Anfrage einreicht, wird sie von diesem Klassifizierungssystem analysiert. Wenn die Anfrage oder die generierte Antwort als problematisch eingestuft wird, gibt der Chatbot eine standardisierte Ablehnungsnachricht zurück. Das Training dieser Filter erfordert umfangreiche, gekennzeichnete Datensätze mit Beispielen für akzeptable und inakzeptable Inhalte.

Wie die Studie zur Poesie jedoch veranschaulicht, können diese Filter blinde Flecken aufweisen. Sie können zu abhängig von spezifischen linguistischen Mustern sein und die böswillige Absicht nicht erfassen, wenn diese auf unkonventionelle Weise ausgedrückt wird. Die kontinuierliche Verbesserung dieser Systeme ist eine große Herausforderung, um einen sicheren und verantwortungsvollen Einsatz der Technologie zu gewährleisten.