A inteligência artificial está em alta no momento. Grandes empresas de tecnologia estão competindo para liderar a revolução da IA. Recentemente, o Google lançou seu mais recente modelo de IA, o Gemini Ultra 1.0, e apresentou o novo Google One AI Premium. Agora, seu principal concorrente, o OpenAI, apoiado pela Microsoft, está preparado para retaliar. A OpenAI está introduzindo um novo modelo de geração de vídeo chamado Sora. De acordo com a empresa postagem no blog (via Reuters), Sora “pode criar cenas realistas e imaginativas a partir de instruções de texto.” Este novo modelo de texto para vídeo permite aos usuários criar vídeos fotorrealistas de até um minuto de duração, todos baseados em instruções escritas.
De acordo com a OpenAI, Sora é capaz de criar cenas complexas com vários personagens, tipos específicos de movimento e detalhes precisos do assunto e do plano de fundo. O modelo entende não apenas o que o usuário pediu no prompt, mas também como essas coisas existem no mundo físico.
O modelo pode até produzir um vídeo a partir de uma única imagem estática e é capaz de preencher quadros faltantes em um vídeo existente ou estender sua duração. A OpenAI reconhece que o modelo “pode ter dificuldade em simular com precisão a física de uma cena complexa,” mas os resultados apresentados são bastante impressionantes. Os vídeos compartilhados demonstram a capacidade do modelo.
O software agora está acessível para equipes vermelhas, auxiliando na identificação de pontos fracos no sistema de IA, e está aberto a artistas visuais, designers e cineastas que queiram dar feedback sobre o modelo. No início deste mês, a OpenAI revelou planos para adicionar marcas d’água à sua ferramenta de conversão de texto em imagem DALL-E 3. No entanto, mencionou que essas marcas d’água podem ser facilmente removidas. Semelhante a seus outros produtos de IA, a OpenAI terá que lidar com as repercussões potenciais de vídeos fotorrealistas falsos gerados por IA serem confundidos com conteúdo genuíno.
A empresa afirma estar desenvolvendo ferramentas para identificar conteúdo enganoso, incluindo um classificador de detecção capaz de reconhecer vídeos gerados por Sora. Não muito tempo atrás, a empresa Meta impulsionou seu modelo de geração de imagens Emu adicionando dois recursos baseados em IA, que também podem editar e criar vídeos a partir de prompts de texto. Parece que o futuro dos Momentos gerados por IA e dos vídeos curtos está cada vez mais próximo do que esperávamos.