Benchmark PT-BR 2026: Qual IA Fala Melhor Português?
O único benchmark de inteligência artificial focado em português brasileiro. Testamos os principais modelos de IA com perguntas reais do ENEM, OAB, SAC, tradução técnica e conhecimentos sobre o Brasil.
Ranking Geral — Português Brasileiro
| # | Modelo | Empresa | Score | % Acerto |
|---|---|---|---|---|
| 1 | o4 Mini | OpenAI | 9.6/10 | 100% |
| 2 | Gemini 2.5 Pro Preview 05-06 | 9.3/10 | 90% | |
| 3 | GPT-4o | OpenAI | 7.9/10 | 85% |
| 4 | Gemini 2.5 Flash | 7.6/10 | 60% | |
| 5 | GPT-4o-mini | OpenAI | 7.2/10 | 80% |
Categorias do Benchmark
Questões do Exame Nacional do Ensino Médio (2019–2024). Testa raciocínio interdisciplinar em português, incluindo interpretação de texto, ciências e matemática.
Questões da prova da Ordem dos Advogados do Brasil. Avalia conhecimento jurídico em português técnico formal.
Cenários reais de atendimento ao cliente em empresas brasileiras. Mede empatia, clareza e resolução de problemas em português coloquial.
Traduções de textos técnicos e literários para o português brasileiro. Avalia fluência, precisão e naturalidade idiomática.
Problemas de lógica e raciocínio em português. Testa se o modelo entende a estrutura do argumento sem interferência do idioma.
Perguntas sobre história, cultura, política e atualidades brasileiras. Avalia conhecimento específico sobre o Brasil.
Por que um Benchmark de IA em Português?
A maioria dos rankings de inteligência artificial — LMArena, MMLU, HumanEval, LiveBench — é conduzida em inglês. Isso cria um viés sistemático: modelos treinados predominantemente em inglês aparecem melhor ranqueados mesmo que seu desempenho em português seja inferior. Para usuários e empresas brasileiras, isso é um problema real.
O Benchmark PT-BR SWEN foi desenvolvido para medir o que importa para o mercado brasileiro: a capacidade dos modelos de compreender, raciocinar e se expressar em português brasileiro com precisão e naturalidade.
Categorias e Metodologia
O benchmark cobre seis dimensões críticas para uso corporativo e acadêmico no Brasil:
- ENEM: Questões do Exame Nacional do Ensino Médio (2019–2024). Testa raciocínio interdisciplinar em português — interpretação de texto, ciências humanas e naturais. Considerado o exame de referência do ensino brasileiro.
- OAB: Questões da Ordem dos Advogados do Brasil. Avalia compreensão de português jurídico formal, legislação brasileira e raciocínio legal. Essencial para aplicações de legaltech no Brasil.
- SAC / Atendimento ao Cliente: Cenários reais de suporte em empresas brasileiras. Mede empatia, clareza comunicacional e resolução de problemas em português coloquial. Relevante para chatbots e assistentes virtuais no varejo e serviços.
- Tradução PT-BR: Tradução de textos técnicos e literários para o português brasileiro. Avalia fluência, precisão terminológica e naturalidade idiomática — distinta do português europeu.
- Raciocínio Lógico em PT-BR: Problemas de lógica apresentados em português. Testa se o modelo entende a estrutura do argumento sem interferência das diferenças linguísticas.
- Conhecimentos sobre o Brasil: Perguntas sobre história, política, cultura e atualidades brasileiras. Avalia o profundidade do conhecimento sobre o país na base de treinamento.
Sistema de Pontuação
Para questões de múltipla escolha (ENEM, OAB), o sistema verifica se o modelo escolheu a letra correta. Score 10 para acerto, 0 para erro — sem pontuação parcial.
Para questões abertas (SAC, Tradução, Raciocínio, Brasil), utilizamos o GPT-4o-mini como juiz automatizado (LLM-as-a-judge). O juiz avalia a resposta em escala de 0–10 com base em: completude da informação, precisão factual, fluência em português brasileiro e adequação ao contexto.
Limitações
Com 20 perguntas por rodada, o benchmark fornece uma indicação estatística, não uma conclusão definitiva. Aumentaremos o banco de questões continuamente. Modelos diferentes podem ser testados em momentos distintos — consulte as datas de execução ao comparar resultados históricos. O benchmark não testa todos os casos de uso em português (audio, visão, código em PT-BR) — essas dimensões serão adicionadas em versões futuras.
O Mercado Brasileiro de IA
O Brasil é o maior mercado de língua portuguesa do mundo, com mais de 215 milhões de falantes. Empresas como bancos, varejistas, seguradoras e startups de healthtech estão implementando IA generativa em escala — e a qualidade do português do modelo é crítica para a experiência do usuário.
Modelos que performam excelentemente em inglês podem cometer erros gramaticais, usar expressões lusitanas inadequadas ao público brasileiro, ou falhar em entender referências culturais locais. O Benchmark PT-BR SWEN é o primeiro passo para criar um padrão de avaliação específico para o Brasil.
Perguntas Frequentes
Qual IA tem melhor desempenho em português?
Em nosso benchmark exclusivo PT-BR, OpenAI: o4 Mini lidera com score médio de 9.6/10 e 100% de acerto. Google: Gemini 2.5 Pro Preview 05-06 fica em segundo com 9.3/10. Os testes incluem ENEM, OAB, SAC, Tradução e Raciocínio em português brasileiro.
Por que um benchmark em português?
A maioria dos benchmarks de IA é em inglês, o que favorece modelos treinados principalmente em inglês. Um benchmark em português brasileiro avalia o desempenho real para usuários brasileiros — cobrindo nuances linguísticas, conhecimento cultural e contextos jurídicos específicos do Brasil.
Como funciona o julgamento automático?
Para questões de múltipla escolha (ENEM, OAB), verificamos a letra escolhida contra a resposta correta. Para questões abertas (SAC, Tradução, Raciocínio), usamos GPT-4o-mini como juiz, com escala de 0–10 baseada em critérios objetivos de completude, precisão e fluência.
Com que frequência os resultados são atualizados?
Novos modelos são adicionados mensalmente. O benchmark é reexecutado quando modelos lançam atualizações significativas. Cada execução usa as mesmas 20+ perguntas para garantir comparabilidade ao longo do tempo.
Posso usar esses dados em pesquisas?
Sim. Os dados do Benchmark PT-BR SWEN são de uso livre para pesquisa acadêmica e avaliação empresarial com atribuição. Acesse nossa API pública em swen.ia.br/api/benchmark ou entre em contato para acesso ao dataset completo.
Compare todos os modelos
Ver ranking completo com benchmarks internacionais, preços e especificações técnicas.