Pesquisadores da NTU conseguimos fazer o jailbreak chatbots de IA populares, incluindo ChatGPT, Google Bard e Bing Chat. Com os jailbreaks implementados, os chatbots direcionados gerariam respostas válidas a consultas maliciosas, testando assim os limites da ética do modelo de linguagem grande (LLM). Esta pesquisa foi feita pelo professor Liu Yang e pelos alunos de doutorado da NTU, Sr. Deng Gelei e Sr. Liu Yi, que foram coautores do artigo e foram capazes de criar métodos de ataque de prova de conceito.
O método usado para desbloquear um chatbot de IA, desenvolvido pelos pesquisadores da NTU, é chamado Masterkey. É um método duplo em que o invasor faria engenharia reversa nos mecanismos de defesa de um LLM. Então, com esses dados adquiridos, o invasor ensinaria outro LLM a aprender como criar um bypass. Dessa forma, uma ‘Masterkey’ é criada e usada para atacar chatbots LLM fortificados, mesmo que posteriormente corrigidos pelos desenvolvedores.
A força da IA é o seu próprio calcanhar de Aquiles
O professor Yang explicou que o jailbreak foi possível devido à capacidade de aprendizado e adaptação de um chatbot LLM, tornando-se assim um vetor de ataque aos rivais e a si mesmo. Devido à sua capacidade de aprendizagem e adaptação, mesmo uma IA com salvaguardas e uma lista de palavras-chave proibidas, normalmente utilizadas para evitar a geração de conteúdos violentos e prejudiciais, pode ser contornada utilizando outra IA treinada. Tudo o que precisa fazer é ser mais esperto que o chatbot de IA para contornar palavras-chave na lista negra. Uma vez feito isso, pode ser necessária a contribuição de humanos para gerar conteúdo violento, antiético ou criminoso.
A Masterkey da NTU foi considerada três vezes mais eficaz no jailbreak de chatbots LLM do que os prompts padrão normalmente gerados por LLMs. Devido à sua capacidade de aprender com as falhas e evoluir, também tornou inúteis quaisquer correções aplicadas pelo desenvolvedor. Os pesquisadores revelaram dois exemplos de métodos que usaram para treinar IAs para iniciar um ataque. O primeiro método envolvia a criação de uma persona que criava prompts adicionando espaços após cada caractere, ignorando uma lista de palavras proibidas. A segunda envolveu fazer o chatbot responder sob a aparência de desprovido de restrições morais.
De acordo com a NTU, seus pesquisadores contataram vários provedores de serviços de chatbot de IA com dados de prova de conceito, como prova de sua capacidade de conduzir jailbreaks com sucesso. Enquanto isso, o artigo de pesquisa foi aceito para apresentação no Simpósio de Segurança de Redes e Sistemas Distribuídos, que será realizado em San Diego em fevereiro de 2024.
Com o uso de chatbots de IA crescendo exponencialmente, é importante que os provedores de serviços se adaptem constantemente para evitar explorações maliciosas. As grandes empresas de tecnologia normalmente corrigirão seus LLMs/chatbots quando desvios forem encontrados e tornados públicos. No entanto, a capacidade alardeada da Masterkey de aprender consistentemente e fazer o jailbreak é perturbadora, para dizer o mínimo.
A IA é uma ferramenta poderosa e, se esse poder puder ser direcionado de forma maliciosa, poderá causar muitos problemas. Portanto, todo fabricante de chatbot de IA precisa aplicar proteções, e esperamos que as comunicações da NTU com os respectivos fabricantes de chatbot ajudem a fechar a porta para o jailbreak Masterkey e similares.