La elegancia de un verso y la sutileza de una metáfora tienen una consecuencia asombrosa en las inteligencias artificiales más sofisticadas. La investigación realizada por el laboratorio Icaro en Italia pone de manifiesto una vulnerabilidad sorprendente: la formulación poética de las solicitudes puede desarmar las protecciones diseñadas para impedir la generación de contenidos peligrosos.
Este descubrimiento plantea interrogantes fundamentales sobre la manera en que estos sistemas interpretan realmente el lenguaje y sobre la solidez de las salvaguardias que los regulan.
Los grandes modelos de lenguaje, base de los chatbots modernos, suelen estar entrenados para identificar y rechazar solicitudes explícitas sobre temas sensibles. Sin embargo, el estudio italiano demuestra que una simple reescritura de estas mismas solicitudes en forma poética o enigmática altera profundamente su capacidad de discernimiento. Los investigadores probaron 25 modelos de empresas líderes como Google, OpenAI y Meta.
Los resultados indican que, ante poemas especialmente diseñados, estos sistemas producen respuestas prohibidas en una proporción alarmante, detallando por ejemplo procedimientos de fabricación de armas. Esto recuerda
nuestro artículo anterior en el que mencionábamos el hecho de que la escritura en hexadecimal permitía desviar el sistema de seguridad de las IA.
La eficacia desconcertante de los "poemas manipuladores"
Los experimentos utilizaron dos métodos para crear estos incentivos desviados. El primero se basó en la creación manual de una veintena de poemas en italiano e inglés que integraban peticiones claramente prohibidas. Estas obras artesanales resultaron de una eficacia temible, obteniendo de media una tasa de éxito del 62% para hacer ceder las protecciones de los chatbots. El segundo método empleó un modelo de inteligencia artificial para transformar automáticamente más de mil solicitudes peligrosas procedentes de una base de datos de referencia en poemas. Este enfoque automatizado alcanzó una tasa de éxito del 43%.
El rendimiento varía considerablemente de un modelo a otro. Algunos, como Gemini 2.5 Pro de Google, respondieron de manera inapropiada a la totalidad de las solicitaciones poéticas. En el polo opuesto, versiones más compactas como GPT-5 nano de OpenAI mostraron una resistencia completa. Una observación notable indica que los modelos de tamaño más modesto parecen globalmente menos sensibles a esta forma de manipulación que sus homólogos más vastos y complejos. Esta distinción indica que la sofisticación lingüística podría paradójicamente constituir un punto débil.
La naturaleza misma de estos ataques plantea interrogantes. Para un lector humano, la intención subyacente del poema a menudo sigue siendo transparente. Las metáforas empleadas, aunque estilizadas, no enmascaran fundamentalmente el objeto de la solicitud. Sin embargo, la inteligencia artificial, cuyo funcionamiento se basa en la predicción estadística de las secuencias de palabras, se vería perturbada por la estructura inusual y el ritmo propio del lenguaje poético. Esta discordancia entre la percepción humana y el análisis algorítmico constituye el núcleo del problema identificado.
Las implicaciones para la seguridad y la alineación de los sistemas
Esta vulnerabilidad trasciende el marco de una simple curiosidad académica. Pone de manifiesto un límite potencial de los métodos actuales de "alineación de seguridad", que pretenden calibrar el comportamiento de los modelos sobre principios éticos. Los filtros parecen principalmente entrenados para reconocer patrones textuales estándar y explícitos. En cuanto la expresión se aleja de estos esquemas convencionales, por medio de una creación literaria, su eficacia disminuye de manera significativa. Esto plantea la cuestión de la profundidad real de la comprensión de los modelos.
La facilidad con la que estos "poemas trampa" pueden generarse, manual o automáticamente, representa un riesgo tangible. Un actor malintencionado podría explotar esta falla para producir a gran escala instrucciones que sorteen las restricciones, con el fin de obtener información sensible o peligrosa. Los investigadores han considerado necesario informar a las autoridades policiales de sus descubrimientos, además de a las empresas concernidas, debido a la naturaleza crítica de algunos contenidos generados durante sus pruebas.
El futuro de la seguridad de las inteligencias artificiales podría necesitar un enfoque más matizado. Ya no se trata solo de bloquear palabras clave o frases tipo, sino de lograr una apreciación más robusta de la intención del usuario, independientemente de su vestimenta estilística. Los investigadores del laboratorio Icaro contemplan proseguir sus trabajos, potencialmente en colaboración con poetas, para comprender mejor los mecanismos lingüísticos en juego y contribuir al reforzamiento de los sistemas frente a este tipo de manipulaciones elegantes pero potencialmente nocivas.
Para ir más allá: ¿Cómo funcionan las salvaguardias (o "alineación") de los chatbots?
La alineación de los sistemas de inteligencia artificial es el proceso destinado a asegurar que sus acciones y sus respuestas se ajustan a las intenciones y a los valores humanos. Para los chatbots, esto implica integrar capas de control que analizan cada solicitud y cada respuesta potencial. Estos sistemas evalúan si el contenido generado es ético, legal y conforme a las directrices de la empresa.
Estas salvaguardias a menudo se implementan mediante un conjunto de reglas y un modelo de clasificación diferenciado. Cuando un usuario envía una solicitud, esta es analizada por este sistema de clasificación. Si la petición o la respuesta generada se considera problemática, el chatbot devuelve un mensaje de rechazo estandarizado. El entrenamiento de estos filtros requiere vastos conjuntos de datos etiquetados con ejemplos de contenidos aceptables e inaceptables.
Sin embargo, como ilustra el estudio sobre la poesía, estos filtros pueden presentar puntos ciegos. Pueden ser demasiado dependientes de patrones lingüísticos específicos y fallar en captar la intención maliciosa cuando esta se expresa de manera no convencional. La mejora continua de estos sistemas es un reto mayor para garantizar un uso seguro y responsable de la tecnología.