O que você precisa saber
TensorRT-LLM está adicionando suporte à API de bate-papo da OpenAI para desktops e laptops com GPUs RTX a partir de 8 GB de VRAM.
Os usuários podem processar consultas LLM de forma mais rápida e local, sem carregar conjuntos de dados para a nuvem.
A NVIDIA combina isso com “Retrieval-Augmented Generation” (RAG), permitindo casos de uso de LLM mais personalizados.
Durante a conferência Ignite da Microsoft hoje, a NVIDIA anunciou uma atualização para seu TensorRT-LLM, que lançado em outubro. Os principais anúncios de hoje são que o recurso TensorRT-LLM agora está ganhando suporte para APIs LLM, especificamente OpenAI Chat API, que é o mais conhecido neste momento, e também que eles trabalharam para melhorar o desempenho com TensorRT-LLM para obter melhor desempenho por token em suas GPUs. Há um anúncio terciário que também é bastante interessante. A NVIDIA incluirá a geração aumentada de recuperação com o TensorRT-LLM. Isso permite que um LLM use uma fonte de dados externa para sua base de conhecimento, em vez de depender de qualquer coisa online – um recurso altamente exigido para IA.
O que é TensorRT-LLM?LEIA MAIS DO IGNITE 2023A NVIDIA lançou recentemente o NVIDIA TensorRT-LLM, uma biblioteca de código aberto que permite a computação local de LLMs em hardware NVIDIA. A NVIDIA apregoa isso para ganhar privacidade e eficiência ao lidar com grandes conjuntos de dados ou informações privadas. O envio dessas informações por meio de uma API como a API de bate-papo da OpenAI é seguro. Você pode aprender mais sobre NVIDIA TensorRT-LLM em Site do desenvolvedor da NVIDIA. As mudanças anunciadas hoje no NVIDIA TensorRT-LLM são a adição da API de bate-papo da OpenAI e melhorias de desempenho para LLMs e modelos de IA anteriormente suportados, como Llama 2 e Stable Diffusion por meio de melhorias DirectML. Esta tecnologia e computação podem ser feitas localmente através de Bancada de IA da NVIDIA. Este “kit de ferramentas unificado e fácil de usar permite que os desenvolvedores criem, testem e personalizem rapidamente modelos de IA generativos pré-treinados e LLMs em um PC ou estação de trabalho”. A NVIDIA tem um página de inscrição para acesso antecipado para aqueles interessados em usá-lo. NVIDIA TensorRT-LLM é uma biblioteca de código aberto que acelera e otimiza o desempenho de inferência dos mais recentes modelos de linguagem grande (LLMs) na plataforma NVIDIA AINVIDIAA Nvidia também está mostrando uma melhoria no desempenho por token para LLMs, como podemos ver nesses benchmarks internos da NVIDIA. Como sempre, tenha cuidado com os benchmarks e testes do fabricante para obter relatórios precisos de ganho de desempenho. (Crédito da imagem: NVIDIA)Agora que conhecemos o TensorRT-LLM da NVIDIA, por que isso é especial ou útil? Na maioria das vezes, a execução local em uma estação de trabalho ou PC com tecnologia NVIDIA provavelmente resultará nas mesmas respostas às consultas, embora provavelmente em um ritmo mais lento devido à falta de poder de computação em nuvem.A imagem da NVIDIA para este caso de uso vem junto ao discutir o outro anúncio de hoje da NVIDIA, ou seja, a integração com uma nova tecnologia ou recurso chamado Retrieval-Augmented Generation.O que é geração aumentada de recuperaçãoO termo geração aumentada por recuperação foi cunhado em um papel por uma série de autores, sendo o autor principal Patrick Lewis. É o nome adotado pela indústria para uma solução para um problema que todos que usaram um LLM encontraram. Informações desatualizadas ou corretas, mas errôneas no contexto da discussão. Os detalhes detalhados de como o RAG funciona podem ser encontrados em um dos sites da NVIDIA Resumos Técnicos.A geração de recuperação aumentada é uma técnica para aumentar a precisão e a confiabilidade de modelos generativos de IA com fatos obtidos de fontes externas.Rick MerrittAo emparelhar a geração de recuperação aumentada com o TensorRT-LLM da NVIDIA, os usuários finais podem personalizar quais informações o LLM tem acesso ao executar suas consultas. ChatGPT anunciou recentemente GPTs personalizados que podem oferecer resultados semelhantes. Conforme discutido em nosso artigo sobre GPTs personalizados, a capacidade de criar instâncias LLM personalizadas e de propósito único com uma GPT personalizada ou, neste caso, uma instância LLM que, usando geração aumentada de recuperação, só tem acesso a todos os trabalhos publicados de Charles Dickens e nada mais, poderiam ajudar na criação de LLMs específicos, significativos e precisos para diferentes casos de uso. O TensorRT-LLM será útil?O que tudo isso significa junto? Existem algumas oportunidades reais para que isso seja usado de forma significativa. Quão fácil será a implementação ou quão seguros serão os dados? Só o tempo irá dizer. Há aqui potencial para melhorias na IA, especialmente a nível empresarial, para melhorar os fluxos de trabalho, oferecer acesso mais conveniente a informações complicadas e ajudar os funcionários em tarefas desafiadoras.Mesmo que essas tarefas sejam executadas localmente, elas ainda passarão pelas APIs normais do LLM, que enfrentarão as mesmas restrições e limitações de conteúdo que enfrentam agora. No entanto, como tecnologias como o TensorRT-LLM da NVIDIA tornam mais rápido o uso de um LLM offline, alguém poderia integrá-lo com algo como MalGPTque não tem limitações em sua conduta e atualmente está sendo usado para criar malware e auxiliar em ataques cibernéticos, o potencial de uma IA causar algum dano real apenas aumenta.O que você acha das atualizações da NVIDIA para TensorRT-LLM? Você consegue pensar em algum uso para isso que eu perdi? Deixe-nos saber nos comentários. window.reliableConsentGiven.then(function(){ !function(f,b,e,v,n,t,s){if(f.fbq)return;n=f.fbq=function() {n.callMethod? n.callMethod.apply(n,arguments):n.queue.push(arguments)} ;if(!f._fbq)f._fbq=n; n.push=n;n.loaded=!0;n.version=’2.0′;n.queue=[];t=b.createElement(e);t.async=!0; t.src=v;s=b.getElementsByTagName(e)[0];s.parentNode.insertBefore(t,s)}(window, document,’script’,’https://connect.facebook.net/en_US/fbevents.js’); fbq(‘init’, ‘1765793593738454’); fbq(‘track’, ‘PageView’); })