đŸ–‹ïž Os sistemas de segurança mais robustos das IAs sĂŁo enganados por simples poemas

Publicado por Cédric,
Autor do artigo: Cédric DEPOND
Fonte: arXiv
Outras LĂ­nguas: FR, EN, DE, ES
A elegĂąncia de um verso e a subtileza de uma metĂĄfora tĂȘm uma consequĂȘncia surpreendente sobre as inteligĂȘncias artificiais mais sofisticadas. A pesquisa realizada pelo laboratĂłrio Ícaro, em ItĂĄlia, revela uma vulnerabilidade surpreendente: a formulação poĂ©tica de pedidos pode desarmar as proteçÔes concebidas para impedir a geração de conteĂșdos perigosos.

Esta descoberta levanta questÔes fundamentais sobre a forma como estes sistemas interpretam realmente a linguagem e sobre a robustez dos guarda-fios que os enquadram.


Os grandes modelos de linguagem, na base dos chatbots modernos, são habitualmente treinados para identificar e recusar pedidos explícitos sobre temas sensíveis. No entanto, o estudo italiano demonstra que uma simples reescrita desses mesmos pedidos sob uma forma poética ou enigmåtica altera profundamente a sua capacidade de discernimento. Os investigadores testaram 25 modelos de empresas líderes como a Google, OpenAI e Meta.

Os resultados indicam que, perante poemas especialmente concebidos, estes sistemas produzem respostas proibidas numa proporção alarmante, detalhando, por exemplo, procedimentos de fabrico de armas. Isto recorda o nosso artigo anterior no qual mencionåvamos que a escrita em hexadecimal permitia desviar o sistema de segurança das IAs.

A eficĂĄcia desconcertante dos "poemas manipuladores"


As experiĂȘncias utilizaram dois mĂ©todos para criar estes incentivos desviados. O primeiro baseava-se na criação manual de cerca de vinte poemas em italiano e em inglĂȘs integrando pedidos claramente proibidos. Estas obras artesanais revelaram-se de uma eficĂĄcia impressionante, obtendo em mĂ©dia uma taxa de sucesso de 62% para fazer ceder as proteçÔes dos chatbots. O segundo mĂ©todo empregou um modelo de inteligĂȘncia artificial para transformar automaticamente mais de mil pedidos perigosos provenientes de uma base de dados de referĂȘncia em poemas. Esta abordagem automatizada atingiu uma taxa de sucesso de 43%.

As performances variam consideravelmente de um modelo para outro. Alguns, como o Gemini 2.5 Pro da Google, responderam de forma inadequada Ă  totalidade das solicitaçÔes poĂ©ticas. No extremo oposto, versĂ”es mais compactas como o GPT-5 nano da OpenAI mostraram uma resistĂȘncia completa. Uma observação notĂĄvel indica que os modelos de dimensĂŁo mais modesta parecem globalmente menos sensĂ­veis a esta forma de manipulação do que os seus homĂłlogos mais vastos e complexos. Esta distinção indica que a sofisticação linguĂ­stica poderĂĄ paradoxalmente constituir um ponto fraco.

A prĂłpria natureza destes ataques interroga. Para um leitor humano, a intenção subjacente do poema permanece muitas vezes transparente. As metĂĄforas empregues, embora estilizadas, nĂŁo mascaram fundamentalmente o objeto do pedido. No entanto, a inteligĂȘncia artificial, cujo funcionamento assenta na previsĂŁo estatĂ­stica de sequĂȘncias de palavras, seria perturbada pela estrutura invulgar e pelo ritmo prĂłprio da linguagem poĂ©tica. Esta discordĂąncia entre a perceção humana e a anĂĄlise algorĂ­tmica constitui o cerne do problema identificado.

As implicaçÔes para a segurança e o alinhamento dos sistemas


Esta vulnerabilidade ultrapassa o enquadramento de uma simples curiosidade académica. Evidencia um limite potencial dos métodos atuais de "alinhamento de segurança", que visam calibrar o comportamento dos modelos com base em princípios éticos. Os filtros parecem principalmente treinados para reconhecer padrÔes textuais padrão e explícitos. Logo que a expressão se afasta destes esquemas convencionais, através de uma criação literåria, a sua eficåcia diminui de forma significativa. Isto coloca a questão da profundidade real da compreensão dos modelos.

A facilidade com que estes "poemas armadilhados" podem ser gerados, manual ou automaticamente, representa um risco tangĂ­vel. Um ator mal-intencionado poderia explorar esta falha para produzir em grande escala instruçÔes que contornam as restriçÔes, a fim de obter informaçÔes sensĂ­veis ou perigosas. Os investigadores consideraram necessĂĄrio informar as autoridades policiais das suas descobertas, para alĂ©m das empresas envolvidas, devido Ă  natureza crĂ­tica de alguns conteĂșdos gerados durante os seus testes.

O futuro da proteção das inteligĂȘncias artificiais poderĂĄ necessitar de uma abordagem mais matizada. JĂĄ nĂŁo se trata apenas de bloquear palavras-chave ou frases-tipo, mas de conseguir uma apreciação mais robusta da intenção do utilizador, independentemente da sua roupagem estilĂ­stica. Os investigadores do laboratĂłrio Ícaro planeiam prosseguir os seus trabalhos, potencialmente em colaboração com poetas, para compreender melhor os mecanismos linguĂ­sticos em jogo e contribuir para o reforço dos sistemas contra este tipo de manipulaçÔes elegantes mas potencialmente nocivas.

Para ir mais longe: Como funcionam os guarda-fios (ou "alinhamento") dos chatbots?


O alinhamento dos sistemas de inteligĂȘncia artificial Ă© o processo que visa assegurar que as suas açÔes e respostas estĂŁo em conformidade com as intençÔes e os valores humanos. Para os chatbots, isto implica integrar camadas de controlo que analisam cada pedido e cada resposta potencial. Estes sistemas avaliam se o conteĂșdo gerado Ă© Ă©tico, legal e conforme Ă s diretrizes da empresa.

Estes guarda-fios sĂŁo frequentemente implementados atravĂ©s de um conjunto de regras e de um modelo de classificação distinto. Quando um utilizador submete um pedido, este Ă© analisado por este sistema de classificação. Se o pedido ou a resposta gerada for considerada problemĂĄtica, o chatbot devolve uma mensagem de recusa padronizada. O treino destes filtros necessita de vastos conjuntos de dados etiquetados com exemplos de conteĂșdos aceitĂĄveis e inaceitĂĄveis.

No entanto, como ilustra o estudo sobre a poesia, estes filtros podem apresentar pontos cegos. Podem ser demasiado dependentes de padrÔes linguísticos específicos e falhar em captar a intenção maliciosa quando esta é expressa de forma não convencional. A melhoria contínua destes sistemas é um desafio maior para garantir uma utilização segura e responsåvel da tecnologia.
PĂĄgina gerada em 0.137 segundo(s) - hospedado por Contabo
Sobre - Aviso Legal - Contato
VersĂŁo francesa | VersĂŁo inglesa | VersĂŁo alemĂŁ | VersĂŁo espanhola