O que você precisa saber
- Cientistas coreanos desenvolveram recentemente um novo modelo de geração de imagens de IA chamado KOALA.
- Ao contrário de outros modelos, como o Image Creator da Designer da Microsoft, a ferramenta apresenta velocidades de geração de imagens mais rápidas.
- Ele aproveita uma nova técnica chamada destilação de conhecimento, que comprime o tamanho de uma ferramenta de geração de imagens de código aberto chamada Stable Diffusion XL.
- Dessa forma, ele consegue gerar imagens com mais rapidez, mesmo em PCs antigos com GPUs desatualizadas.
Um novo gerador de imagens alimentado por IA está no horizonte e pode potencialmente assumir o Image Creator da Microsoft do Designer (anteriormente Bing Image Creator), Midjourney e o modelo DALL-E 3 da OpenAI.
A nova ferramenta pode gerar imagens em menos de dois segundos, significativamente mais rápido do que a ferramenta média de geração de imagens. De acordo com um spot de Ciência Vivaos cientistas sul-coreanos por trás desta nova invenção aproveitaram uma nova técnica chamada destilação de conhecimento, que comprime o tamanho de uma ferramenta de geração de imagens de código aberto chamada Stable Diffusion XL.
Para fins de contexto, Stable Diffusion XL apresenta até 2,56 bilhões de parâmetros. Como você já deve saber, a IA depende muito do conteúdo existente, incluindo imagens, para treinamento. Este grande conjunto de parâmetros explica por que a geração de imagens pode demorar um pouco. No entanto, com esta nova técnica, os cientistas reduziram os parâmetros do seu modelo mais pequeno, o KOALA, para 700 milhões.
Como tal, a ferramenta pode gerar imagens em uma fração de segundo. O modelo de geração de imagens não requer GPUs de última geração e dispositivos sofisticados para funcionar sem problemas. Requer apenas cerca de 8 GB de RAM para gerar imagens. Essencialmente, a técnica de destilação do conhecimento peneira as informações do modelo grande para o menor, sem afetar a qualidade ou o desempenho. Dessa forma, o modelo menor é capaz de gerar imagens de qualidade com mais rapidez.
RELACIONADO: A velocidade de geração de imagens do Image Creator da Microsoft é terrivelmente dolorosa
De acordo com benchmarks compartilhados pelos cientistas, o KOALA é significativamente mais rápido que os modelos DALL-E 3 ou DALL-E 2 da OpenAI. Quando solicitado a gerar “uma imagem de um astronauta lendo um livro sob a lua em Marte”, o primeiro levou 13,7 segundos e o último 12,3 segundos. O KOALA levou apenas 1,6 segundos para gerar a imagem.
Existem cinco versões do KOALA. Três versões do modelo geram imagens com base em prompts de texto, enquanto as duas versões restantes (Ko-LLaVA) podem gerar imagens e vídeos (muito parecido com o modelo Sora da OpenAI).
Os cientistas coreanos do Instituto de Pesquisa em Eletrônica e Telecomunicações (ETRI) compartilharam seu trabalho e descobertas no repositório de IA de código aberto Abraçando o rosto e a banco de dados arXiv.
Os cientistas pretendem integrar esses modelos nos serviços existentes de geração de imagens, produção de conteúdo e muito mais.