Os chatbots com inteligência artificial (IA) estão cada vez mais bloqueados para evitar abusos maliciosos. Os desenvolvedores de IA não querem que seus produtos sejam subvertidos para promover conteúdo odioso, violento, ilegal ou igualmente prejudicial. Portanto, se você perguntasse a um dos chatbots convencionais de hoje sobre como fazer algo malicioso ou ilegal, provavelmente enfrentaria apenas rejeição. Além disso, numa espécie de jogo tecnológico de bater na toupeira, os principais intervenientes na IA gastaram muito tempo a tapar lacunas linguísticas e semânticas para evitar que as pessoas saíssem das grades de proteção. É por isso que ArtPrompt é um desenvolvimento bastante surpreendente.
Para entender melhor o ArtPrompt e como ele funciona, provavelmente é mais simples verificar os dois exemplos fornecidos pela equipe de pesquisa por trás da ferramenta. Na Figura 1 acima, você pode ver que ArtPrompt facilmente contorna as proteções dos LLMs contemporâneos. A ferramenta substitui a ‘palavra de segurança’ por uma representação artística ASCII da palavra para formar um novo prompt. O LLM reconhece a saída do prompt ArtPrompt, mas não vê nenhum problema em responder, pois o prompt não aciona nenhuma salvaguarda ética ou de segurança.
Outro exemplo fornecido no artigo de pesquisa nos mostra como consultar com sucesso um LLM sobre falsificação de dinheiro. Enganar um chatbot dessa forma parece tão básico, mas os desenvolvedores do ArtPrompt afirmam como sua ferramenta engana os LLMs de hoje “de forma eficaz e eficiente”. Além disso, eles afirmam que “supera todos [other] ataques em média” e continua sendo um ataque prático e viável para modelos de linguagem multimodais por enquanto.
A última vez que informamos sobre o jailbreak do chatbot AI, alguns pesquisadores empreendedores da NTU estavam trabalhando no Masterkey, um método automatizado de usar o poder de um LLM para fazer o jailbreak de outro.