GB
Voltar ao portfólio
#llm#slm#qlora#research#ai

O Que Aprendi Sobre Small Language Models

6 de março de 20263 min de leitura

Como Tudo Começou

No meu primeiro semestre no curso de Ciência da Computação da UFMG, entrei para o FutureLab — laboratório de pesquisa dentro do DCC — como Pesquisador de Iniciação Científica. O lab mantinha uma parceria com a Morada AI, eleita a startup de IA #1 do Brasil no ranking Top 100 Startups 2025.

Meu foco: otimização de LLMs. Tornar modelos de linguagem mais rápidos, baratos e capazes por meio de técnicas como QLoRA, PEFT, Knowledge Distillation e Fine-Tuning.

Então li um artigo da Nvidia intitulado "Small Language Models are the Future of Agentic AI" — e algo fez sentido.

A Percepção

A narrativa dominante em IA tem sido sobre escala. Modelos maiores, mais parâmetros, mais compute. GPT-4, Gemini Ultra, Claude — são impressionantes, mas têm um custo real: energia, latência, acessibilidade e dependência de infraestrutura cloud.

O artigo da Nvidia fazia um argumento diferente: o futuro dos agentes de IA — sistemas que raciocinam, planejam e agem de forma autônoma — não é necessariamente sobre o maior modelo. É sobre o modelo certo para a tarefa, rodando onde precisa rodar.

SLMs (Small Language Models) — modelos na faixa de 1B a 7B parâmetros — estão se tornando surpreendentemente capazes, especialmente quando fine-tunados em domínios específicos. Um modelo de 3B fine-tunado em prontuários médicos pode superar o GPT-4 em tarefas médicas. Um modelo de 1.5B fine-tunado em dados financeiros pode classificar transações de forma mais rápida e precisa do que um modelo genérico de 70B.

As implicações são significativas: modelos que rodam num laptop, num celular ou num dispositivo de borda. Sem custos de API. Sem dados saindo do dispositivo. Sem dependência de internet.

O Que Fiz Com Esse Insight

Não fiquei só na leitura — comecei a aplicar.

No FutureLab, trabalhei em pipelines de fine-tuning usando QLoRA (Quantized Low-Rank Adaptation), uma técnica que permite fine-tunar um modelo grande usando uma fração da memória, treinando apenas pequenas matrizes adaptadoras em vez dos pesos completos do modelo.

O fluxo de trabalho:

  1. Começar com um modelo base (Qwen, LLaMA, Mistral)
  2. Quantizar para precisão 4-bit para caber na memória da GPU
  3. Treinar adapters LoRA em dados específicos do domínio
  4. Fazer merge dos adapters de volta ao modelo base ou usá-los na inferência

O resultado: um modelo que se comporta como um especialista no domínio, a uma fração do custo do fine-tuning completo.

Levei isso diretamente para o Junto — construindo um modelo fine-tunado com QLoRA especializado em finanças pessoais brasileiras, rodando inteiramente on-device via MLX-Swift. A mesma pesquisa que era teórica no FutureLab se tornou uma feature em produção num app iOS.

A Mudança de Arquitetura: MoE

O lançamento do Kimi K2 usando arquitetura de Mixture of Experts (MoE) reforçou algo que eu vinha pensando: os ganhos de eficiência em IA não vêm apenas de modelos menores — vêm de arquiteturas mais inteligentes.

Modelos MoE roteiam cada token por apenas um subconjunto dos parâmetros do modelo, o que significa que você obtém a capacidade de um modelo grande com o custo de inferência de um pequeno. Combinado com técnicas de quantização e fine-tuning, isso aponta para um futuro onde IA capaz é genuinamente barata de rodar.

Por Que Isso Importa

Todo modelo de trilhões de parâmetros respondendo uma pergunta simples é uma falha de arquitetura, não um feature. O custo energético, a latência, a dependência de infraestrutura — nada disso é necessário para a maioria das tarefas do mundo real.

SLMs feitos do jeito certo — fine-tunados, quantizados e deployed na borda — são mais privados, mais eficientes, mais acessíveis e, em muitos domínios, mais precisos do que modelos grandes genéricos.

Acredito que estamos no começo de uma mudança fundamental: de IA que vive na nuvem e custa dinheiro por query, para IA que vive no seu dispositivo e não custa nada para rodar.

Essa é a aposta que estou fazendo com o Junto. E quanto mais pesquiso, mais acredito que é a certa.

GB

Gustavo Barra Felizardo

Estudante de CC na UFMG · Pesquisador @ FutureLab · Fundador da Solitus & Junto