Meta está anunciando através de um postagem no blog que estão ocupados trabalhando em novas pesquisas sobre “edição controlada de imagens baseada apenas em instruções de texto e um método para geração de texto para vídeo baseado em modelos de difusão”.
O que, em palavras mais simples, significa que eles querem instalar ferramentas generativas de IA no Facebook e no Instagram. Os projetos que a Meta está desenvolvendo são chamados Emu Video e Emu Edit.
O que é vídeo Emu?
Esta ferramenta, como o nome sugere, serve para gerar vídeo. Meta o descreve como “um método simples para geração de texto para vídeo baseado em modelos de difusão”. O Emu Video deve responder a uma variedade de entradas: somente texto, somente imagem e texto e imagem. O processo é dividido em duas etapas, esclarece Meta: primeiro, gerar imagens condicionadas a um prompt de texto e, em seguida, gerar vídeo condicionado tanto ao texto quanto à imagem gerada.
Nossa abordagem de última geração é simples de implementar e usa apenas dois modelos de difusão para gerar vídeos 512×512 de quatro segundos de duração a 16 quadros por segundo.
O que é Emu Edit?
Este deve permitir a “edição precisa de imagens” por meio de tarefas de reconhecimento e geração. Como diz Meta, o uso de IA generativa costuma ser um processo, não uma tarefa única.
“O Emu Edit é capaz de editar de forma livre por meio de instruções, abrangendo tarefas como edição local e global, remoção e adição de plano de fundo, transformações de cor e geometria, detecção e segmentação e muito mais. Os métodos atuais muitas vezes tendem a modificar excessivamente ou a ter um desempenho inferior em várias tarefas de edição. Argumentamos que o objetivo principal não deveria ser apenas produzir uma imagem “crível”. Em vez disso, o modelo deve se concentrar em alterar com precisão apenas os pixels relevantes para a solicitação de edição. Ao contrário de muitos modelos generativos de IA atuais, o Emu Edit segue instruções com precisão, garantindo que os pixels na imagem de entrada não relacionados às instruções permaneçam intactos. Por exemplo, ao adicionar o texto ‘Aloha!’ a um boné de beisebol, o boné em si deve permanecer inalterado”, afirma a equipe Meta.
Os possíveis casos de uso
O caminho a seguir é definitivamente orientado pela IA para Meta.
“Embora este trabalho seja uma pesquisa puramente fundamental no momento, os casos de uso potenciais são claramente evidentes. Imagine gerar seus próprios adesivos animados ou GIFs inteligentes instantaneamente para enviar no bate-papo em grupo, em vez de ter que procurar a mídia perfeita para sua resposta. Ou edite suas próprias fotos e imagens, sem necessidade de conhecimentos técnicos. Ou adicione um pouco de força extra às suas postagens do Instagram, animando fotos estáticas. Ou gerando algo totalmente novo”, finaliza o post do blog.