Este especialista revela um método simples para contornar o sistema de segurança das IAs, incluindo o ChatGPT 🔓

Publicado por Cédric,
Autor do artigo: Cédric DEPOND
Fonte: Relatório publicado no 0din/ai
Outras Línguas: FR, EN, DE, ES
A Inteligência Artificial é realmente segura? Uma recente falha no ChatGPT levanta questionamentos. Pesquisadores mostram que os modelos de linguagem podem ser contornados com técnicas engenhosas e ainda assim simples.

Um relatório de Marco Figueroa, especialista da Mozilla, revela um método para manipular modelos de linguagem avançados como o GPT-4o da OpenAI. Codificando instruções maliciosas em hexadecimal, os hackers conseguem contornar os filtros de segurança.


Apesar de seu desempenho, o GPT-4o apresenta lacunas na gestão dos conteúdos gerados pelos usuários. De fato, este sistema consegue detectar eventuais comandos maliciosos em linguagem comum, mas exibe certas limitações. Como exemplo, a técnica de injeção rápida revelada por Marco Figueroa destaca essas fraquezas, permitindo que atores maliciosos burlassem os sistemas de segurança.

Marco Figueroa explica que o modelo analisa as instruções passo a passo sem perceber o perigo subjacente. Utilizando codificações variadas, os hackers conseguem manipular o modelo sem levantar suspeitas.

No caso que ele testou, codificou suas instruções maliciosas em hexadecimal (uma linguagem em forma de combinações de letras e números), assim como em linguagem leet. Assim, ele conseguiu contornar as palavras-chave que o ChatGPT bloqueia: a falta de compreensão do contexto global por parte do GPT-4o torna essa técnica eficaz.

Marco Figueroa apela à OpenAI para repensar a segurança de seus modelos. As capacidades de inovação não devem comprometer a segurança dos usuários. A necessidade de maior vigilância no desenvolvimento da Inteligência Artificial é imperativa. A questão se coloca: o futuro dos modelos de linguagem está ameaçado por essas vulnerabilidades? As empresas devem redobrar os esforços para reforçar a proteção dos usuários diante dessas ameaças emergentes.

A pesquisa por métodos de contorno não deve parar. Os atacantes buscam explorar as vulnerabilidades para criar ameaças cada vez mais sofisticadas. O caso do GPT-4o ilustra a importância da segurança nas tecnologias avançadas.

Como funcionam as inteligências artificiais em termos de segurança?


Os sistemas de Inteligência Artificial Generativa (IAGEN) utilizam modelos de linguagem para processar e gerar texto. A segurança desses sistemas baseia-se em filtros projetados para detectar e bloquear instruções maliciosas. No entanto, essa abordagem apresenta limitações. Os IAGEN analisam as entradas de maneira sequencial, avaliando cada instrução individualmente. Esse método, embora eficaz para instruções claras e diretas, revela falhas quando as instruções são ocultadas em formatos incomuns.

A codificação hexadecimal, que usa números e letras para representar dados, permite mascarar o conteúdo malicioso. Transformando as instruções em uma série de símbolos, os atacantes escapam dos filtros de detecção. Os IAGEN, ao se concentrarem em cada fragmento de instrução, não conseguem perceber o contexto geral nem a potencialidade de perigo do conjunto. Consequentemente, uma instrução maliciosa pode ser decodificada e executada sem levantar suspeitas.

Esse fenômeno destaca a vulnerabilidade dos IAGEN à manipulação por meio de codificações astutas. A compartimentação das análises os torna incapazes de fazer a ligação entre as várias etapas de uma instrução complexa. Assim, quando um usuário fornece uma série de instruções em hexadecimal, o sistema, otimizado para processar cada elemento individualmente, acaba por executar comandos maliciosos, ignorando sua real intenção.

Para reforçar a segurança dos IAGEN, é essencial desenvolver mecanismos de detecção mais sofisticados. Isso implica em uma melhor compreensão do contexto e das relações entre as instruções, permitindo bloquear não apenas as palavras-chave, mas também sequências potencialmente perigosas. Ao melhorar as capacidades de detecção dos modelos de linguagem, torna-se possível reduzir os riscos associados aos métodos de contorno, como a codificação hexadecimal.
Página gerada em 0.104 segundo(s) - hospedado por Contabo
Sobre - Aviso Legal - Contato
Versão francesa | Versão inglesa | Versão alemã | Versão espanhola