Google lança Gemini, seu maior e mais capaz modelo de IA
O Google acaba de lançar Gêmeos, que descreve como seu “maior e mais capaz modelo de IA”. O novo modelo de linguagem grande (LLM) virá em três tamanhos: Ultra, Pro e Nano – data center até móvel. Algumas das maiores vantagens do Gemini dizem respeito à sua precisão e desempenho, bem como às suas habilidades multimodais nativas.
O CEO do Google, Sundar Pichai, apresentou Gemini em um postagem no blog, e disse que um dos principais objetivos do Gemini era “tornar a IA mais útil para todos”. O Google tem investido pesadamente no Gemini nos bastidores, já que as manchetes estão repletas de notícias sobre avanços no ChatGPT e até mesmo no Grok. O projeto Gemini foi “um dos maiores esforços científicos e de engenharia que realizamos como empresa”, segundo Pichai. O Google tem investido “nas melhores ferramentas, modelos básicos e infraestrutura”.
O CEO do Google destacou a velocidade da mudança e o impulso por trás da IA. “Milhões de pessoas estão agora usando IA generativa em nossos produtos para fazer coisas que não conseguiam há um ano”, disse ele. No entanto, com grande poder vem uma grande responsabilidade, e Pichai também transmitiu uma mensagem forte sobre ser ousado mas responsável. Para esse fim, a Gemini irá concentrar-se na entrega de benefícios – mas com salvaguardas.
Gemini 1.0 vem em três tamanhos:
- Gemini Ultra — nosso maior e mais capaz modelo para tarefas altamente complexas.
- Gemini Pro — nosso melhor modelo para escalar uma ampla gama de tarefas.
- Gemini Nano — nosso modelo mais eficiente para tarefas no dispositivo.
O Google também compartilhou um vídeo demonstrando algumas das “interações favoritas do gigante das buscas com Gemini”.
Demis Hassabis, CEO e cofundador do Google DeepMind, também contribuiu para a postagem do blog de anúncio do Gemini. Hassabis refletiu sobre sua experiência no desenvolvimento de IA em jogos durante a adolescência, depois como pesquisador de neurociência, antes de seu ilustre período à frente da DeepMind. Hassabis mencionou que um de seus maiores desejos era fazer com que a IA deixasse de ser uma experiência de software e se tornasse mais parecida com um ajudante ou assistente especializado.
Grande parte da conversa sobre o Gemini, e várias demonstrações, centra-se nas suas capacidades multimodais. Foi construído do zero para ter essa capacidade. Sua multimodalidade significa que “pode generalizar e compreender, operar e combinar diferentes tipos de informações, incluindo texto, código, áudio, imagem e vídeo”.
(Crédito da imagem: Google)
O Google estava focado nas capacidades e no desempenho do Gemini. A empresa compartilhou alguns resultados detalhados de benchmark em seu blog, mostrando que o Gemini foi rigorosamente testado e fornecerá resultados precisos em uma ampla gama de tarefas e raciocínios.
(Crédito da imagem: Google)
Google se gabou do desempenho do Gemini
O Google também compartilhou algumas das conquistas do Gemini em comparação com o GPT LLM da OpenAI, mostrando que se comparou de forma extremamente favorável nas tarefas de benchmark de IA traçadas. Lembre-se de que GPT-4 é a iteração mais nova e capaz do OpenAI LLM. O Google destacou o triunfo convincente do Gemini em “30 dos 32 benchmarks acadêmicos amplamente utilizados em pesquisa e desenvolvimento de modelos de linguagem grande (LLM)”.
O Google Gemini está sendo implementado agora nos produtos e plataformas da empresa. A partir de hoje, Bard usará “uma versão aprimorada do Gemini Pro para raciocínio, planejamento, compreensão mais avançados e muito mais”. Além disso, estará disponível em inglês em mais de 170 países e territórios.
Gemini Nano será lançado no Google Pixel 8 Pro. Aplicativos como Recorder, G-Board e WhatsApp terão acesso ao Gemini em breve, com mais suporte para aplicativos nos próximos meses. Por último, mas não menos importante, o Gemini também está sendo preparado para integração com Search (SGE), Ads, Chrome e Duet AI.