A elegĂąncia de um verso e a subtileza de uma metĂĄfora tĂȘm uma consequĂȘncia surpreendente sobre as inteligĂȘncias artificiais mais sofisticadas. A pesquisa realizada pelo laboratĂłrio Ăcaro, em ItĂĄlia, revela uma vulnerabilidade surpreendente: a formulação poĂ©tica de pedidos pode desarmar as proteçÔes concebidas para impedir a geração de conteĂșdos perigosos.
Esta descoberta levanta questÔes fundamentais sobre a forma como estes sistemas interpretam realmente a linguagem e sobre a robustez dos guarda-fios que os enquadram.
Os grandes modelos de linguagem, na base dos chatbots modernos, sĂŁo habitualmente treinados para identificar e recusar pedidos explĂcitos sobre temas sensĂveis. No entanto, o estudo italiano demonstra que uma simples reescrita desses mesmos pedidos sob uma forma poĂ©tica ou enigmĂĄtica altera profundamente a sua capacidade de discernimento. Os investigadores testaram 25 modelos de empresas lĂderes como a Google, OpenAI e Meta.
Os resultados indicam que, perante poemas especialmente concebidos, estes sistemas produzem respostas proibidas numa proporção alarmante, detalhando, por exemplo, procedimentos de fabrico de armas. Isto recorda
o nosso artigo anterior no qual mencionåvamos que a escrita em hexadecimal permitia desviar o sistema de segurança das IAs.
A eficĂĄcia desconcertante dos "poemas manipuladores"
As experiĂȘncias utilizaram dois mĂ©todos para criar estes incentivos desviados. O primeiro baseava-se na criação manual de cerca de vinte poemas em italiano e em inglĂȘs integrando pedidos claramente proibidos. Estas obras artesanais revelaram-se de uma eficĂĄcia impressionante, obtendo em mĂ©dia uma taxa de sucesso de 62% para fazer ceder as proteçÔes dos chatbots. O segundo mĂ©todo empregou um modelo de inteligĂȘncia artificial para transformar automaticamente mais de mil pedidos perigosos provenientes de uma base de dados de referĂȘncia em poemas. Esta abordagem automatizada atingiu uma taxa de sucesso de 43%.
As performances variam consideravelmente de um modelo para outro. Alguns, como o Gemini 2.5 Pro da Google, responderam de forma inadequada Ă totalidade das solicitaçÔes poĂ©ticas. No extremo oposto, versĂ”es mais compactas como o GPT-5 nano da OpenAI mostraram uma resistĂȘncia completa. Uma observação notĂĄvel indica que os modelos de dimensĂŁo mais modesta parecem globalmente menos sensĂveis a esta forma de manipulação do que os seus homĂłlogos mais vastos e complexos. Esta distinção indica que a sofisticação linguĂstica poderĂĄ paradoxalmente constituir um ponto fraco.
A prĂłpria natureza destes ataques interroga. Para um leitor humano, a intenção subjacente do poema permanece muitas vezes transparente. As metĂĄforas empregues, embora estilizadas, nĂŁo mascaram fundamentalmente o objeto do pedido. No entanto, a inteligĂȘncia artificial, cujo funcionamento assenta na previsĂŁo estatĂstica de sequĂȘncias de palavras, seria perturbada pela estrutura invulgar e pelo ritmo prĂłprio da linguagem poĂ©tica. Esta discordĂąncia entre a perceção humana e a anĂĄlise algorĂtmica constitui o cerne do problema identificado.
As implicaçÔes para a segurança e o alinhamento dos sistemas
Esta vulnerabilidade ultrapassa o enquadramento de uma simples curiosidade acadĂ©mica. Evidencia um limite potencial dos mĂ©todos atuais de "alinhamento de segurança", que visam calibrar o comportamento dos modelos com base em princĂpios Ă©ticos. Os filtros parecem principalmente treinados para reconhecer padrĂ”es textuais padrĂŁo e explĂcitos. Logo que a expressĂŁo se afasta destes esquemas convencionais, atravĂ©s de uma criação literĂĄria, a sua eficĂĄcia diminui de forma significativa. Isto coloca a questĂŁo da profundidade real da compreensĂŁo dos modelos.
A facilidade com que estes "poemas armadilhados" podem ser gerados, manual ou automaticamente, representa um risco tangĂvel. Um ator mal-intencionado poderia explorar esta falha para produzir em grande escala instruçÔes que contornam as restriçÔes, a fim de obter informaçÔes sensĂveis ou perigosas. Os investigadores consideraram necessĂĄrio informar as autoridades policiais das suas descobertas, para alĂ©m das empresas envolvidas, devido Ă natureza crĂtica de alguns conteĂșdos gerados durante os seus testes.
O futuro da proteção das inteligĂȘncias artificiais poderĂĄ necessitar de uma abordagem mais matizada. JĂĄ nĂŁo se trata apenas de bloquear palavras-chave ou frases-tipo, mas de conseguir uma apreciação mais robusta da intenção do utilizador, independentemente da sua roupagem estilĂstica. Os investigadores do laboratĂłrio Ăcaro planeiam prosseguir os seus trabalhos, potencialmente em colaboração com poetas, para compreender melhor os mecanismos linguĂsticos em jogo e contribuir para o reforço dos sistemas contra este tipo de manipulaçÔes elegantes mas potencialmente nocivas.
Para ir mais longe: Como funcionam os guarda-fios (ou "alinhamento") dos chatbots?
O alinhamento dos sistemas de inteligĂȘncia artificial Ă© o processo que visa assegurar que as suas açÔes e respostas estĂŁo em conformidade com as intençÔes e os valores humanos. Para os chatbots, isto implica integrar camadas de controlo que analisam cada pedido e cada resposta potencial. Estes sistemas avaliam se o conteĂșdo gerado Ă© Ă©tico, legal e conforme Ă s diretrizes da empresa.
Estes guarda-fios sĂŁo frequentemente implementados atravĂ©s de um conjunto de regras e de um modelo de classificação distinto. Quando um utilizador submete um pedido, este Ă© analisado por este sistema de classificação. Se o pedido ou a resposta gerada for considerada problemĂĄtica, o chatbot devolve uma mensagem de recusa padronizada. O treino destes filtros necessita de vastos conjuntos de dados etiquetados com exemplos de conteĂșdos aceitĂĄveis e inaceitĂĄveis.
No entanto, como ilustra o estudo sobre a poesia, estes filtros podem apresentar pontos cegos. Podem ser demasiado dependentes de padrĂ”es linguĂsticos especĂficos e falhar em captar a intenção maliciosa quando esta Ă© expressa de forma nĂŁo convencional. A melhoria contĂnua destes sistemas Ă© um desafio maior para garantir uma utilização segura e responsĂĄvel da tecnologia.