Novo blog da NVIDIA destaca ferramentas e otimizações para rodar LLMs com mais velocidade e privacidade em PCs com GeForce RTX
Cada vez mais pessoas estão executando LLMs (Large Language Models) diretamente em seus próprios PCs para economizar em assinaturas de serviços na nuvem e ter maior privacidade e controle sobre projetos de inteligência artificial. Com o avanço de modelos de IA abertos e de ferramentas gratuitas para uso local, cresce o interesse em experimentar a tecnologia em notebooks e desktops.
As GPUs GeForce RTX impulsionam essas experiências, oferecendo respostas rápidas e fluidas, enquanto as atualizações do Project G-Assist permitem que usuários de notebooks controlem o computador por voz ou texto, tornando a IA mais prática e acessível.
Em um novo blogpost, a NVIDIA detalhou como estudantes, entusiastas de IA e desenvolvedores podem começar a explorar os LLMs localmente em seus PCs. Entre as principais ferramentas destacadas estão:
- Ollama – Uma das opções mais acessíveis para iniciantes. A ferramenta de código aberto oferece uma interface simples para executar e interagir com LLMs, permitindo arrastar e soltar PDFs, manter conversas interativas e explorar fluxos multimodais que combinam texto e imagem.
- AnythingLLM – Ideal para criar um assistente de IA pessoal. Integrado ao Ollama, possibilita carregar documentos, anotações e apresentações para gerar questionários e cartões de estudo. É rápido, privado e gratuito.
- LM Studio – Fornece uma interface amigável para testar dezenas de modelos, baseada no framework llama.cpp. Permite executar LLMs localmente, conversar em tempo real e até disponibilizá-los como endpoints de API para projetos personalizados.
- Project G-Assist – Agora oferece controle de configurações do PC, como bateria, ventoinha e desempenho, utilizando apenas comandos de voz ou texto.
As novas atualizações para PCs com GeForce RTX AI incluem:
- Ollama otimizado para GeForce RTX – Até 50% de aumento de performance no modelo gpt-oss-20B da OpenAI e 60% mais velocidade nos modelos Gemma 3, além de agendamento mais inteligente para evitar sobrecarga de memória e otimizar múltiplas GPUs.
- Llama.cpp e GGML otimizados – Melhor desempenho na inferência em GPUs GeForce RTX, com suporte ao NVIDIA Nemotron Nano v2 9B, Flash Attention habilitado por padrão e otimizações de kernel CUDA.
- Atualização do G-Assist (v0.1.18) – Disponível no NVIDIA App, traz novos comandos para notebooks e respostas mais precisas.
- Windows ML com NVIDIA TensorRT – Lançado pela Microsoft, oferece até 50% mais desempenho em inferência, suporte a LLMs, modelos de difusão e outros, além de implantação simplificada no Windows 11.
Com essas inovações, a NVIDIA reforça seu compromisso em tornar a inteligência artificial mais acessível, eficiente e integrada ao dia a dia dos usuários, permitindo que qualquer pessoa explore o poder dos LLMs diretamente em seus próprios PCs.
Para mais detalhes, acesse o blog oficial da NVIDIA.