do Google Prática com Gêmeos o vídeo foi um dos aspectos mais impressionantes do lançamento do novo modelo de linguagem grande (LLM) de IA da empresa. No entanto, Bloomberg conversou com um porta-voz do Google que admitiu que o vídeo não foi gravado em tempo real. Além disso, os comandos de voz nem foram usados, a interação vocal com Gemini que você ouve foi dublada posteriormente. O Google também lançou um postagem no blogao mesmo tempo que a demo, que ilustra como o vídeo foi feito.
Sundar Pichai, o CEO do Google, compartilhou o vídeo prático na quinta-feira, como ele disse a melhor maneira de entender “as incríveis capacidades subjacentes de Gêmeos é vê-las em ação”. Uma dica de que nem tudo era o que parecia foi incluída na descrição do vídeo no YouTube. “Para os fins desta demonstração, a latência foi reduzida e as saídas do Gemini foram encurtadas por questões de brevidade”, diz uma nota de rodapé.
Vendo algumas perguntas sobre o que Gêmeos *é* (além do zodíaco :). A melhor maneira de entender as incríveis capacidades subjacentes de Gêmeos é vê-los em ação, dê uma olhada pic.twitter.com/OiCZSsOnCc6 de dezembro de 2023
Essa nota de rodapé pode ser descrita como um eufemismo ou um desvio da verdade. Como o vídeo não foi apenas encurtado, não houve interação real durante a gravação. O porta-voz do Google disse à Bloomberg que o vídeo prático foi remendado com “o uso de quadros de imagens estáticas da filmagem e avisos via texto”. Assim, o Gemini respondeu apenas às solicitações digitadas e às imagens estáticas que foram enviadas para ele. O fluxo de conversação, com o ser humano falando, desenhando, mostrando objetos, brincando com xícaras e outros objetos, foi aparentemente apenas encenado para o vídeo de demonstração.
Se olharmos novamente para o vídeo, a explicação do porta-voz destrói a impressão natural do assistente de conversação que tivemos durante a primeira exposição à demonstração.
Mais algumas explicações sobre o vídeo ‘Hands-on with Gemini’ vieram do vice-presidente de pesquisa e líder de aprendizado profundo do Google DeepMind, Oriol Vinyals, hoje cedo. “O vídeo ilustra como poderiam ser as experiências multimodais do usuário construídas com o Gemini,” Vinyals fundamentou. “Fizemos isso para inspirar os desenvolvedores.” A postagem do vice-presidente do Google DeepMind atraiu muita atenção por repetir a afirmação de que o vídeo era “real, abreviado para ser breve”.
Estou muito feliz em ver o interesse em torno do nosso vídeo “Hands-on with Gemini”. Ontem, em nosso blog de desenvolvedores, detalhamos como o Gemini foi usado para criá-lo. https://t.co/50gjMkaVc0Demos sequências ao Gemini de diferentes modalidades – imagem e texto, neste caso – e fizemos com que ele respondesse… pic.twitter.com/Beba5M5dHP7 de dezembro de 2023
Esperançosamente, o vídeo do Google pode inspirar os desenvolvedores – no Google – a fazer o Gemini funcionar exatamente como no vídeo de demonstração. Caso contrário, as pessoas podem se sentir um pouco enganadas, ou mesmo enganadas, pelo abismo entre o vídeo de demonstração prático e a realidade.