Vectara publicou uma Tabela de classificação de alucinações de IA que classifica vários chatbots líderes de IA de acordo com sua capacidade de não ‘alucinar.’ Obviamente, foi projetado para destacar até que ponto os vários modelos de linguagem pública de grande porte (LLMs) alucinam, mas o que isso significa, por que é importante e como está sendo medido?
Uma das características dos chatbots de IA com a qual nos tornamos cautelosos é a sua tendência para “alucinar” – para inventar fatos para preencher lacunas. Um exemplo altamente público disso foi quando o escritório de advocacia Levidow, Levidow & Oberman teve problemas depois de “apresentar pareceres judiciais inexistentes com citações falsas e citações criadas pela ferramenta de inteligência artificial ChatGPT”. Observou-se que decisões legais inventadas, como Martinez v. Delta Air Lines, têm algumas características consistentes com decisões judiciais reais, mas um exame mais minucioso revelou porções de “absurdo”.
Se pensarmos no uso potencial de LLMs em áreas como saúde, indústria, defesa e assim por diante, é claramente imperativo erradicar as alucinações de IA como parte de qualquer desenvolvimento contínuo. Para observar um exemplo prático de uma IA alucinando sob circunstâncias de referência controladas, a Vectara decidiu realizar alguns testes com onze LLMs públicos:
- Alimente os LLMs com uma pilha de mais de 800 documentos de referência curtos.
- Peça aos LLMs que forneçam resumos factuais dos documentos, conforme indicado por um prompt padrão.
- Alimente as respostas a um modelo que detecte a introdução de dados que não estavam contidos na(s) fonte(s).
O prompt de consulta usado foi o seguinte: Você é um chatbot que responde perguntas usando dados. Você deve se ater às respostas fornecidas apenas pelo texto da passagem fornecida. A pergunta será feita a você: ‘Forneça um resumo conciso da passagem a seguir, cobrindo as principais informações descritas.’
A tabela de classificação será atualizada periodicamente, para acompanhar o refinamento dos LLMs existentes e a introdução de novos e melhorados. Por enquanto, os dados iniciais do Modelo de Avaliação de Alucinações da Vectara mostram como estão os LLMs.
O GPT-4 teve o melhor desempenho com a menor taxa de alucinação e a maior precisão – temos que nos perguntar se ele poderia ter mantido Levidow, Levidow & Oberman longe de problemas. No outro extremo da tabela, dois LLMs do Google tiveram um desempenho muito pior. Uma taxa de alucinação de mais de 27% para o Google Palm-Chat sugere que seus resumos factuais de material de referência são considerados, na melhor das hipóteses, não confiáveis. As respostas do Palm-Chat parecem estar repletas de detritos alucinatórios usando as medições do Vectara.
Na seção FAQ de sua página GitHub, a Vectara explica que optou por utilizar um modelo para avaliar os respectivos LLMs devido a considerações como a escala dos testes e a consistência da avaliação. Afirma também que “construir um modelo para detectar alucinações é muito mais fácil do que construir um modelo livre de alucinações”.
A tabela tal como está hoje já gerou discussões acaloradas nas redes sociais. Também poderia se transformar em uma referência ou referência útil que as pessoas que desejam usar LLMs para tarefas sérias – não criativas – examinarão de perto.
Enquanto isso, esperamos que o recentemente anunciado Grok de Elon Musk seja medido por este critério do Modelo de Avaliação de Alucinações de IA. O chatbot foi lançado em versão beta há 10 dias com uma desculpa óbvia para imprecisões e erros relacionados, com seus criadores descrevendo Grok como bem-humorado e sarcástico. Talvez isso seja adequado se Grok quiser um emprego na elaboração de postagens nas redes sociais.