“`html
IA e o Colapso do Modelo LLM
IA – está em todos os lugares que você olha agora. Todos os dias parece que há uma nova notícia sobre IA, seja um novo avanço tecnológico, uma nova empresa entrando em ação ou um bot de atendimento ao cliente de IA xingando seus clientes. IA é a nova moda e provavelmente veio para ficar. Quer seja o Microsoft Copilot no Windows ou qualquer outra coisa, toda a tecnologia funciona essencialmente de maneira semelhante. Grandes modelos de linguagem (LLMs) são treinados em dados roubado raspado emprestado da internet. Quer sejam os ótimos artigos aqui no Windows Central escritos por você mesmo (aham), ou novas histórias postadas pelo New York Times (que atualmente está processando a Microsoft sobre o assunto, opa), ou obras de arte protegidas por direitos autorais da Disney ou mesmo de criadores independentes – sem criadores humanos, a IA não é nada. E você deve se perguntar se OpenAI, Microsoft, Google e outros proliferadores de IA realmente percebem esse fato. Na verdade, ao optar primeiro pelos lucros com coisas como o Microsoft Copilot Pro, em vez de estabelecer uma base funcional para uma relação simbiótica entre criação de conteúdo, curadoria e treinamento LLM, a Microsoft e seus concorrentes podem ter inadvertidamente condenado seus próprios modelos desde o início, pelo menos em parte. Vejamos algumas das maiores ameaças enfrentadas pelos LLMs de IA no momento e o que a Microsoft e seus amigos podem fazer a respeito, se houver alguma coisa.
1. Microsoft Copilot, Google Bard e OpenAI ChatGPT estão matando a Internet – e a si próprios
O Microsoft Copilot está disponível no Bing.com e em breve será integrado a todos os PCs com Windows. (Crédito da imagem: Windows Central)
Já ouviu falar do conceito de colapso do modelo LLM? É sem dúvida a maior ameaça enfrentada por empresas como OpenAI, Microsoft e Google no momento, e nenhuma delas parece realmente levar a ameaça particularmente a sério. O colapso do modelo descreve o processo degenerativo que grandes modelos de linguagem como ChatGPT podem experimentar quando são treinados em dados indesejados gerados por IA. Assim como um JPEG passando por milhares de iterações de compactação e compartilhamento ao longo dos anos, se ferramentas como ChatGPT e Copilot facilitarem a inundação da Internet com dados inúteis mal escritos e cheios de alucinações, ele reproduzirá iterativamente um conjunto degenerativo cumulativo e crescente. efeito na qualidade da produção de um LLM.
Já circulam memes que descrevem como ChatGPT e Copilot ficaram “preguiçosos” nos últimos meses, produzindo resultados de qualidade inferior. E agora, uma nova pesquisa (via Vice) sugere que grandes quantidades de conteúdo escrito na Internet já são geradas por IA, repletas de erros, imprecisões e, ocasionalmente, mentiras prejudiciais. Num artigo ainda a ser publicado, a investigação sugere que até 57 por cento da Internet pode já ser gerada por IA, com uma forte tendência para regiões e línguas com poucos recursos.
Há mais conteúdo em inglês sobre todos os tipos de tópicos na web, por exemplo, o que ajuda uma IA a treinar e localizar resultados com mais precisão. Mas não há razão para pensar que será sempre assim. Já, um excesso de conteúdo orientado para o inglês também é gerado por IA. Você só precisa navegar pelo YouTube Shorts ou TikTok por 2 minutos para encontrar conteúdo indesejado gerado por IA. A Microsoft e o Google estão travando uma corrida armamentista para proliferar ferramentas de IA. (Crédito da imagem: Futuro)
Na verdade, neste momento, Google, Microsoft e OpenAI têm uma relação insustentável com criadores de conteúdos humanos, dos quais dependem para treinar os seus modelos de IA. Se a Microsoft, e mais particularmente o Google, com o seu controlo de 90% no mercado de pesquisa, continuarem a prejudicar os criadores humanos, ironicamente só estarão a prejudicar-se a si próprios a longo prazo.
Para tanto, outro estudo (via Gizmodo) detalha como o Google está perdendo a guerra contra o lixo gerado pela IA. Um modelo de linguagem grande não pode usar um fone de ouvido e produzir guias de alta qualidade, como meu melhor artigo sobre fones de ouvido Xbox (plug sem vergonha), então as pessoas que desejam ganhar dinheiro rápido podem gerar artificialmente artigos semelhantes, que então dependem de LLMs para roubar minhas coisas. A pesquisa sugere que o Google está lutando para diferenciar entre experiências originais pesquisadas por humanos e experiências falsas geradas por IA, levando potencialmente a um declínio na viabilidade financeira do conteúdo em que se baseia para treinar esses modelos.
A escassez de criadores humanos significa um declínio na qualidade dos dados, um declínio na viabilidade da pesquisa e um declínio na qualidade da IA. Se Microsoft, Google, et al. quiserem levar a sério o colapso do modelo, provavelmente precisarão explorar como preservar o (relativo) simbiose que existe agora entre criadores e algoritmos de busca. Se o Google e a Microsoft se recusarem a fazê-lo, os tribunais poderão forçá-los a fazê-lo de qualquer maneira.
2. O iminente apocalipse jurídico
Uma imagem gerada por IA de Mickey Mouse chorando em uma cela de prisão que a Disney provavelmente não gostaria, via Microsoft Image Creator. (Crédito da imagem: Bing Image Creator)
Nos primeiros dias da integração do Dalle-3 ao Bing, vimos imediatamente como os usuários podiam produzir imagens violadoras de direitos autorais, embaraçosas e potencialmente até prejudiciais usando truques imediatos. A Disney não gostou das imagens de Mickey Mouse cometendo assassinatos terríveis, então a Microsoft prontamente (heh) lobotomizou o Bing Image Creator. No entanto, consegui criar a imagem acima no momento em que escrevi, embora infiltrar a violência seja mais difícil do que antes.
Nos próximos anos, plataformas como OpenAI e Microsoft enfrentarão uma pressão crescente de detentores de direitos de autor de todos os matizes, que consideram a formação de LLMs sobre os seus dados como não autorizada. A OpenAI divulgou um comunicado em resposta a um grande processo do New York Times, alegando que a remoção de artigos para treinamento LLM representava “uso justo”. Caberá aos tribunais decidir se esse argumento se sustenta ou não, mas suspeito que a OpenAI terá uma batalha difícil para convencer um juiz e um júri de que analisar conteúdo protegido por direitos autorais para construir produtos com fins lucrativos constitui “uso justo”.
Cada vez mais, plataformas como o Reddit e o Twitter (X) estão impedindo o acesso das grandes empresas de tecnologia aos seus dados para fins de treinamento, em parte para que possam treinar seus próprios modelos, mas também simplesmente porque a Microsoft et al. não se preocupou em pedir permissão. Vários outros editores também estão se preparando para seus próprios processos judiciais, devido ao fato de plataformas como Copilot e Google Bard privarem plataformas de conteúdo dos usuários.
O que realmente me levou a sair da cama às 5 da manhã e escrever este artigo foi um reddit fio descrevendo uma ferramenta chamada Nightshade. Beladona foi produzido por um termo de pesquisa que busca especificamente maneiras de proteger os artistas contra roubo de conteúdo – o que, sejamos realistas, as empresas que criam essas ferramentas estão envolvidas em bastante. Como o Nightshade funciona é incrível. Combinadas com uma ferramenta semelhante chamada Glaze, as ferramentas permitem que os artistas não apenas protejam seus estilos de modelos de inteligência artificial, mas também injetem lixo e pixels imprecisos na mixagem, indetectáveis ao olho humano. “Enquanto os olhos humanos veem uma imagem sombreada que permanece praticamente inalterada em relação ao original, o modelo de IA vê uma composição dramaticamente diferente na imagem. Por exemplo, os olhos humanos podem ver uma imagem sombreada de uma vaca em um campo verde praticamente inalterada, mas um O modelo de IA pode ver uma grande bolsa de couro na grama. Treinado com um número suficiente de imagens sombreadas que incluem uma vaca, um modelo ficará cada vez mais convencido de que as vacas têm lindas alças de couro marrom e bolsos laterais lisos com zíper, e talvez um lindo logotipo da marca.”
“`