Um autoproclamado artista, idiota e criador refez a agora desacreditada demonstração Gemini do Google usando a tecnologia de seu rival de IA mais óbvio, ChatGPT. Greg Tecnologia publicou um pequeno vídeo em que o técnico de mesmo nome discutiu o desenho de um pato, perguntou sobre alguns emojis de sinais manuais e fez com que a IA GPT-4V da OpenAI identificasse um jogo que estava sendo jogado. A noite de vídeo de Greg carece do polimento da demonstração Gemini AI, mas realmente mistura comandos de voz e visão em tempo real.
Para contextualizar a gravação de vídeo da Greg Technology, vale a pena dar uma olhada no Google’s Vídeo de lançamento da Gemini AI intitulado “Prática com Gêmeos”. No dia do lançamento, este foi o vídeo principal, considerado a melhor maneira de entender “as incríveis capacidades subjacentes do Gemini é vê-los em ação”, de acordo com o CEO do Google, Sundar Pichai.
Logo descobriu-se que o impressionantemente fofo e elegante Google Gemini AI vídeo foi encenado. O principal problema que causou decepção entre os observadores de IA foi que o vídeo apresentado não foi gravado em tempo real – em vez disso, o Gemini respondeu a uma série de imagens estáticas. Além disso, toda a interação de voz foi dublada posteriormente como parte do processo de produção do vídeo, enquanto Gemini respondeu às solicitações de texto durante a demonstração.
Acima, você pode ver a demonstração em tempo real da Greg Technology, que replica algumas das principais seções da aventura prática da Gemini AI. Greg fornece um preâmbulo à ação durante a primeira metade do clipe. Em resumo, ele se lembra de ter visto o vídeo “super emocionante” do Gemini, com suas idas e vindas entre o apresentador falando e fazendo coisas – com uma voz de robô de IA demonstrando sua compreensão do que estava acontecendo. Na opinião de Greg, o Google não produziu “um tipo real de demonstração honesta”.
A situação espinhosa para o Google fez Greg se perguntar se ele poderia fazer seu próprio “Remake da demonstração falsa do Google Gemini, exceto usando GPT-4, e é real”. Daí o título do vídeo incorporado.
Uma importante atualização do GPT-4 chegou nas últimas semanas, com uma extensão de visão disponível. Greg pensou que com o GPT-4V ele poderia refazer a demonstração do Gemini AI, e você pode vê-lo realizando alguns dos mesmos exercícios de alongamento de IA na segunda metade de seu vídeo. Uma das coisas que vemos/ouvimos durante a Tecnologia Greg é a lacuna significativa entre o prompt de voz do usuário e o GPT-4V dando sua resposta verbal. O vídeo de demonstração “Hands-on with Gemini” do Google foi lançado com um aviso dizendo: “a latência foi reduzida e as saídas do Gemini foram encurtadas por questões de brevidade”. Mas, infelizmente, descobrimos que o showreel de demonstração passou por muito mais pós-processamento e edição do que isso.
Greg Technology fez seu código de demonstração disponível através do GitHub.