O Que Aprendi Sobre Small Language Models

O novo cenário do mercado de LLMs

No meu primeiro semestre no curso de Ciência da Computação da UFMG, entrei para o FutureLab — laboratório de pesquisa dentro do DCC — como Pesquisador de Iniciação Científica. O lab mantinha uma parceria com a Morada AI, eleita a startup de IA #1 do Brasil no ranking Top 100 Startups 2025.

Um dos desafios tragos pela Morada AI foi a otimização de LLMs. Tornar modelos de linguagem mais rápidos, baratos e capazes por meio de técnicas como QLoRA, PEFT, Knowledge Distillation e Fine-Tuning.

Após meses de pesquisa, em julho li um artigo da Nvidia intitulado "Small Language Models are the Future of Agentic AI" — e algo fez sentido.

A Percepção

A narrativa dominante em IA tem sido sobre escala. Modelos maiores, mais parâmetros. GPT-5, Gemini 3.0 Pro, Claude Opus 4.6 — são impressionantes, mas têm um custo real: energia, latência, acessibilidade e dependência de infraestrutura cloud.

O artigo da Nvidia fazia um argumento diferente: o futuro dos agentes de IA — sistemas que raciocinam, planejam e agem de forma autônoma — não é necessariamente sobre o maior modelo. É sobre o modelo certo para a tarefa, rodando onde precisa rodar.

SLMs (Small Language Models) — modelos bem menores que 7B parâmetros — estão se tornando surpreendentemente capazes, especialmente quando fine-tunados em domínios específicos. Um modelo de 3B fine-tunado em prontuários médicos pode equiparar com o GPT-4 em tarefas médicas. Um modelo de 1.5B fine-tunado em dados financeiros pode classificar transações de forma mais rápida e precisa do que um modelo genérico de 70B.

As implicações são significativas: modelos que rodam num laptop, num celular ou num dispositivo pequeno. Sem custos de API. Sem dados saindo do dispositivo. Sem dependência de internet.

O Que Fiz Com Esse Insight

Não fiquei só na leitura — comecei a aplicar.

Trabalhei em pipelines de fine-tuning usando QLoRA (Quantized Low-Rank Adaptation), uma técnica que permite fine-tunar um modelo grande usando uma fração da memória, treinando apenas pequenas matrizes adaptadoras em vez dos pesos completos do modelo.

O resultado que eu queria: um modelo que se comporta como um especialista no domínio, a uma fração do custo do fine-tuning completo.

Levei isso diretamente para o Junto — construindo um modelo fine-tunado com QLoRA especializado em finanças pessoais brasileiras, rodando inteiramente on-device via MLX-Swift. A mesma pesquisa que era teórica no FutureLab se tornou uma feature em produção num app iOS.

Prova de que a eficiência em IA vem de arquiteturas inteligentes: MoE

O lançamento do Kimi K2 usando arquitetura de Mixture of Experts (MoE) reforçou algo que eu vinha pensando: os ganhos de eficiência em IA não vêm apenas de modelos menores — vêm de arquiteturas mais inteligentes.

Modelos MoE roteiam cada token por apenas um subconjunto dos parâmetros do modelo, o que significa que você obtém a capacidade de um modelo grande com o custo de inferência de um pequeno. Combinado com técnicas de quantização e fine-tuning, isso aponta para um futuro onde IA capaz é genuinamente barata de rodar.

Por Que Isso Importa

Todo modelo de trilhões de parâmetros respondendo uma pergunta simples é uma falha de arquitetura, não um feature. O custo energético, a latência, a dependência de infraestrutura — nada disso é necessário para a maioria das tarefas do mundo real.

SLMs feitos do jeito certo — fine-tunados, quantizados... são mais privados, mais eficientes, mais acessíveis e, em muitos domínios, mais precisos do que modelos grandes genéricos.

Acredito que estamos no começo de uma mudança fundamental: de IA que vive na nuvem e custa dinheiro por query, para IA que vive no seu dispositivo e não custa nada para rodar.

Essa é a aposta que estou fazendo com o Junto. E quanto mais pesquiso e construo, mais acredito que é a certa.