O Google anunciou o Gemini esta semana. Gemini competirá com ChatGPT e é uma IA multimodal, o que significa que pode interagir com texto, imagens, áudio, vídeo e código. O hype em torno de Gemini foi alto depois do Google I/O, mas agora estamos começando a dar uma olhada por trás da cortina do modelo de IA, e não é bonito.
Embora o Gemini se mostre promissor, todos nós precisamos moderar as expectativas em relação à nova ferramenta porque o vídeo prático que o Google compartilhou é falso. Pode parecer uma palavra forte, mas Parmy Olson, da Bloomberg, mostrou como o vídeo do Google não representa como o Gemini funcionará no mundo real.
Antes de falar sobre como o Google fez o vídeo, quero esclarecer que o clipe não é inteiramente uma invenção. O Google usou o Gemini para identificar objetos e descobrir o que estava acontecendo nas imagens. O que o Google não fez, entretanto, foi criar um vídeo prático genuíno que mostrasse a experiência real que você terá ao usar o Gemini.
Ao assistir a um vídeo prático de um produto, você espera um conteúdo que reflita o uso no mundo real. Por exemplo, se um revisor do YouTube fizesse uma experiência prática com um novo fone de ouvido VR, você gostaria que esse vídeo mostrasse a jogabilidade real, como é o campo de visão e como os controles funcionam bem. Da mesma forma, uma prática com um telefone deve mostrar como o telefone realmente funciona, e não uma abordagem acelerada e interligada.
Você poderia argumentar que a maioria, senão todas, as demonstrações de produtos são agrupadas e não mostram nenhuma falha dos produtos que destacam. Mas como se costuma dizer, dois erros não fazem um acerto.
No vídeo, um usuário realiza diversas tarefas, como tentar esconder uma bola em um copo, desenhar um pato e jogar um jogo com um mapa. Ao longo do clipe, Gêmeos narra o que está acontecendo em tempo real, descobrindo tudo na hora. O que você não vê no vídeo, entretanto, é que o Google usou instruções de texto e forneceu contexto para fazer a demonstração do Gemini.
O Google deu instruções ao Gemini com base em quadros de imagens estáticas do conteúdo capturado. A empresa então solicitou o modelo de IA com texto. A narração foi então adicionada ao posfácio.
Na verdade, as instruções mostradas no vídeo nem são as dadas ao Gemin. O vídeo faz parecer que Gêmeos vê três xícaras colocadas sobre uma mesa e imediatamente determina que o usuário está tentando jogar. Na verdade, o Google treinou Gemini como jogar. Em seguida, testou Gêmeos quanto à sua capacidade de seguir instruções muito específicas. Mesmo nessas circunstâncias, Gêmeos não é perfeito nessa tarefa.
O vice-presidente de pesquisa e aprendizado profundo do Google, Oriol Vinyals, defendeu o vídeo no X.
“Todas as solicitações e resultados do usuário no vídeo são reais, abreviados para fins de brevidade. O vídeo ilustra o que as experiências do usuário multimodal construídas com o Gemini poderia parecer. Fizemos isso para inspirar os desenvolvedores”, disse Vinyals (ênfase adicionada).
Eu entendo por que o Google fez o que fez. A Amazon tentou exibir o Echo Show 8 no início deste ano com uma verdadeira demonstração ao vivo, mas não deu certo. Ligar para o dispositivo dizendo “ei Alexa” resultou em respostas lentas. O desempenho também não foi bom, colocando o dispositivo em condições de pouca luz.