Parece que as empresas de IA, incluindo Microsoft, OpenAI e Cohere, estão fazendo todo o possível para encontrar dados sintéticos com os quais treinar seus produtos de IA. Citando a disponibilidade limitada de dados “orgânicos” gerados por humanos na rede mundial de computadores, essas empresas pretendem usar dados (sintéticos) gerados por IA em uma espécie de loop infinito, onde o treinamento é obtido em dados que já foram criados generativamente.
“Se você pudesse obter todos os dados de que precisa da web, isso seria fantástico”, disse Aidan Gomez, presidente-executivo da Cohere, startup de US$ 2 bilhões da LLM. ao Financial Times. “Na realidade, a web é tão barulhenta e confusa que não é realmente representativa dos dados que você deseja. A web simplesmente não faz tudo o que precisamos.”
E há também a questão do custo, já que dados gerados por humanos, segundo Gomez, são “extremamente caros”. Isso já levou à fundação de algumas empresas de “dados sintéticos”, como a Gretel.ai, especializada na produção de conjuntos de dados sintéticos que são vendidos para fins de treinamento.
O problema da disponibilidade e procedência dos dados é um dos maiores fatores limitantes em nossa era atual de IA. Hoje, existem riscos reais no treinamento de redes de IA com dados sintéticos que já foram “mastigados” e gerados pelas próprias IAs. Por um lado, há o problema de composição de deficiências nos dados de treinamento de base: se o conjunto de dados de treinamento não sintético original já sofria de vieses, esses mesmos vieses serão incluídos, digeridos e amplificados nas iterações de treinamento subsequentes, aumentando sua relevância.
Mas outro problema, talvez muito mais impactante, decorre de um limite descoberto recentemente: a qualidade da saída é severamente degradada após cinco rodadas de treinamento em dados sintéticos gerados por IA. Se essa condição “MAD” apresenta um limite suave ou rígido para o treinamento de IA parece ser uma questão central na intenção da Microsoft e da OpenAI de treinar recursivamente suas redes de IA. Este é um espaço que provavelmente receberá uma enxurrada de estudos; A Microsoft Research, por exemplo, publicou artigos sobre histórias curtas geradas recursivamente (o que significa que um modelo foi treinado em histórias geradas por outro modelo) e uma rede de IA de codificação que foi treinada em documentação gerada por IA em torno da programação Python. Verificar os riscos de degeneração de dados nesses e em outros modelos de tamanho maior (como o Llama 2 de 70B, lançado recentemente para código aberto pela Meta) será a chave para saber até que ponto (e quão rápido) a IA evoluirá no futuro previsível.
Com empresas voltadas para IA clamando por mais e mais dados, faz sentido que elas tentem gerar recursivamente conjuntos de dados de alta qualidade. Isso pode ser feito de várias maneiras, mas talvez aquela com maior probabilidade de sucesso seja simplesmente permitir que duas redes de IA interajam uma com a outra, com uma assumindo o papel de tutor e a outra assumindo o papel de aluno. A intervenção humana seria (e sempre será) necessária, no entanto, para selecionar pontos de dados de qualidade inferior e manter sob controle as “alucinações” (afirmações de IA que não são verdadeiras).
Existem alguns obstáculos no caminho para o sonho tecnocrático de uma IA autoevolutiva e autodidata; modelos que podem ter discussões internas, descobertas internas e que produzem novos conhecimentos que não são meras misturas e combinações (embora essa seja uma das marcas da produção criativa, afinal).
Claro, temos que ter em mente que nem todos os sonhos são agradáveis. Já temos problemas para lidar com pesadelos induzidos por humanos; não há como dizer o quão impactantes os “pesadelos” de uma máquina podem ser.