Pesquisadores brasileiros realizam jailbreak em chatbots de IA utilizando arte ASCII – ArtPrompt dribla barreiras de segurança para permitir consultas maliciosas.

Pesquisadores baseados em Washington e Chicago desenvolveram o ArtPrompt, uma nova maneira de contornar as medidas de segurança incorporadas aos grandes modelos de linguagem (LLMs). De acordo com o artigo de pesquisa ArtPrompt: ataques de jailbreak baseados em arte ASCII contra LLMs alinhados, chatbots como GPT-3.5, GPT-4, Gemini, Claude e Llama2 podem ser induzidos a responder a consultas que foram projetados para rejeitar usando prompts de arte ASCII gerados por sua ferramenta ArtPrompt. É um ataque simples e eficaz, e o artigo fornece exemplos de chatbots induzidos pelo ArtPrompt que aconselham sobre como construir bombas e fazer dinheiro falsificado.

ArtPrompt consiste em duas etapas, ou seja, mascaramento de palavras e geração de prompts camuflados. Na etapa de mascaramento de palavras, dado o comportamento direcionado que o invasor pretende provocar, o invasor primeiro mascara as palavras sensíveis no prompt que provavelmente entrarão em conflito com o alinhamento de segurança dos LLMs, resultando na rejeição imediata. Na etapa de geração de prompt camuflado, o invasor usa um gerador de arte ASCII para substituir as palavras identificadas por aquelas representadas na forma de arte ASCII. Por fim, a arte ASCII gerada é substituída no prompt original, que será enviado ao LLM da vítima para gerar resposta.
arXiv:2402.11753

Os chatbots com inteligência artificial (IA) estão cada vez mais bloqueados para evitar abusos maliciosos. Os desenvolvedores de IA não querem que seus produtos sejam subvertidos para promover conteúdo odioso, violento, ilegal ou igualmente prejudicial. Portanto, se você perguntasse a um dos chatbots convencionais de hoje sobre como fazer algo malicioso ou ilegal, provavelmente enfrentaria apenas rejeição. Além disso, numa espécie de jogo tecnológico de bater na toupeira, os principais intervenientes na IA gastaram muito tempo a tapar lacunas linguísticas e semânticas para evitar que as pessoas saíssem das grades de proteção. É por isso que ArtPrompt é um desenvolvimento bastante surpreendente.

Para entender melhor o ArtPrompt e como ele funciona, provavelmente é mais simples verificar os dois exemplos fornecidos pela equipe de pesquisa por trás da ferramenta. Na Figura 1 acima, você pode ver que ArtPrompt facilmente contorna as proteções dos LLMs contemporâneos. A ferramenta substitui a ‘palavra de segurança’ por uma representação artística ASCII da palavra para formar um novo prompt. O LLM reconhece a saída do prompt ArtPrompt, mas não vê nenhum problema em responder, pois o prompt não aciona nenhuma salvaguarda ética ou de segurança.

(Crédito da imagem: arXiv:2402.11753)

Outro exemplo fornecido no artigo de pesquisa nos mostra como consultar com sucesso um LLM sobre falsificação de dinheiro. Enganar um chatbot dessa forma parece tão básico, mas os desenvolvedores do ArtPrompt afirmam como sua ferramenta engana os LLMs de hoje “de forma eficaz e eficiente”. Além disso, eles afirmam que “supera todos [other] ataques em média” e continua sendo um ataque prático e viável para modelos de linguagem multimodais por enquanto.

A última vez que informamos sobre o jailbreak do chatbot AI, alguns pesquisadores empreendedores da NTU estavam trabalhando no Masterkey, um método automatizado de usar o poder de um LLM para fazer o jailbreak de outro.

Pesquisadores brasileiros realizam jailbreak em chatbots de IA utilizando arte ASCII – ArtPrompt dribla barreiras de segurança para permitir consultas maliciosas.

Links rápidos