Um dia antes do Google I/O, o Google postou um tweet mostrando em ação um protótipo de uma versão conversacional de seu chatbot AI Gemini que usa entrada de vídeo em vez de texto. Gravado enquanto a equipe estava ocupada preparando o palco para o evento de amanhã, Gemini é questionado: “O que você acha que está acontecendo aqui?” De forma bastante impressionante, Gêmeos responde: “Parece que as pessoas estão se preparando para um grande evento, talvez uma conferência ou apresentação”.
Gêmeos então pergunta se há algo em específico que chamou a atenção do usuário. Ele responde dizendo: “Sim, aquelas letras grandes e bonitas na tela. O que elas significam?” A resposta do chatbot AI: “Essas cartas representam o Google I/O, uma conferência de desenvolvedores realizada pelo Google. Você já participou do Google I/O?” O usuário responde: “Não. Este é o meu primeiro. O que você gostaria de ouvir?” Gemini responde: “Estou sempre animado para aprender sobre os novos avanços na inteligência artificial e como eles podem ajudar as pessoas em suas vidas diárias”.
Mais um dia até #GoogleIO! Estamos sentindo. Vejo você amanhã para as últimas notícias sobre IA, Pesquisa e muito mais. pic.twitter.com/QiS1G8GBf9
– Google (@Google) 13 de maio de 2024
O Gemini não apenas responde correta e adequadamente às perguntas feitas, como o vídeo mostra que o chatbot faz um bom trabalho quando se trata de manter uma conversa. O Google provavelmente se sentiu compelido a lançar este vídeo hoje, pois menos de uma hora depois de ter sido postado no “X”, a OpenAI anunciou um recurso semelhante para ChatGPT gratuitamente na conta “X” pertencente a CEO da OpenAI, Sam Altman.
Diga olá ao GPT-4o, nosso novo modelo principal que pode raciocinar através de áudio, visão e texto em tempo real: https://t.co/MYHZB79UqN
A entrada de texto e imagem será lançada hoje na API e no ChatGPT com voz e vídeo nas próximas semanas. pic.twitter.com/uuthKZyzYx
– OpenAI (@OpenAI) 13 de maio de 2024
A OpenAI anunciou que os consumidores podem obter acesso ao GPT-4o (pronuncia-se GPT four-oh), que é mais rápido que o GPT-4 e usará entradas de texto, imagens, vídeo e voz. É duas vezes mais rápido que o GPT-4 Turbo pela metade do preço e com limites de taxa 5x mais altos. As entradas de texto e imagem começam hoje na API e no ChatGPT, com entradas de voz e vídeo sendo lançadas nas próximas semanas. O GPT-4o trará a inteligência do GPT-4 para todos os usuários, incluindo usuários gratuitos.