Benchmark de IA 2026Compare +550 Modelos em Português

Análise independente em português de +550 modelos de IA das principais empresas. ELO do Chatbot Arena, Intelligence Index, preços em reais e especificações. Atualizado diariamente.

Por Luis Fernando Roquette • Última atualização: 24 de maio de 2026

500 modelos • 420 com benchmarks • 415 com Score AA • Sincronizado: 24 de maio de 2026

Qual o melhor LLM hoje?

Mais Inteligente

Score AA — Artificial Analysis · atualizado a cada 6h

GPT-5.5

60.2

Claude Opus 4.7

57.3

Gemini 3.1 Pro Preview

57.2

GPT-5.4

56.8

GPT-5.4 Pro

56.8

Melhor custo-benefício?

Mais Entrega por Menos

Score AA por US$/1M tokens • R$ câmbio 5.70

DeepSeek V4 Flash

$0.14

R$0.85

GPT-5.4 Nano

$0.20

R$1.21

MiniMax M2.7

$0.30

R$1.82

GPT-5 Mini

$0.25

R$1.52

DeepSeek V3.2 Exp (Reasoning)

$0.28

R$1.67

Mais Barato (com Score AA)

Preço input por 1M tokens

DeepSeek V4 Flash

$0.14

AA 46.5

GPT-5.4 Nano

$0.20

AA 44.0

GPT-5 Mini

$0.25

AA 41.2

DeepSeek V3.2 Exp (Reasoning)

$0.28

AA 41.7

KAT-Coder-Pro V2

$0.30

AA 43.8

🏆 Ranking por Inteligência

Score AA — Artificial Analysis · top 20

🥇GPT-5.5OpenAI

60.2 🥈Claude Opus 4.7Anthropic

57.3 🥉Gemini 3.1 Pro PreviewGoogle

57.2 4GPT-5.4OpenAI

56.8 5GPT-5.4 ProOpenAI

56.8 6Qwen3.7 MaxAlibaba

56.6 7Gemini 3.5 FlashGoogle

55.3 8Kimi K2.6MoonshotAI

53.9 9GPT-5.3-CodexOpenAI

53.6 10Claude Opus 4.6 (Adaptive Reasoning, Max Effort)Anthropic

52.9

Score AA = AA Intelligence Index da Artificial Analysis. Atualizado a cada 6h. Clique em qualquer modelo para ver benchmarks detalhados.

500

Modelos

Empresas

415

Com Score AA

Reasoning

Open Source

122

Multimodal

Ranking por Score AA

Classificação baseada no AA Intelligence Index da Artificial Analysis — score composto atualizado a cada 6 horas.

#	Modelo	Empresa	ELO	Intel.	Input $/1M	Context	Lançamento	Tipo
·	GPT-5.5 OpenAI	OpenAI	—	60.2	$5.00	1.1M tokens	abr. de 2026	MM
·	Claude Opus 4.7 Anthropic	Anthropic	—	57.3	$6.25	1.0M tokens	abr. de 2026	MMR
·	Gemini 3.1 Pro Preview Google	Google	—	57.2	$2.00	1.0M tokens	fev. de 2026	MMR
·	GPT-5.4 OpenAI	OpenAI	—	56.8	$2.50	1.1M tokens	mar. de 2026	MMR
·	GPT-5.4 Pro OpenAI	OpenAI	—	56.8	$30.00	1.1M tokens	mar. de 2026	MMR
·	Qwen3.7 MaxNovo Alibaba	Alibaba	—	56.6	$2.50	—	mai. de 2026
·	Gemini 3.5 FlashNovo Google	Google	—	55.3	$1.50	1.0M tokens	mai. de 2026	MM
·	Kimi K2.6 MoonshotAI	MoonshotAI	—	53.9	$0.95	262K tokens	abr. de 2026	OSMMR
·	GPT-5.3-Codex OpenAI	OpenAI	—	53.6	$1.75	400K tokens	fev. de 2026	MMR
·	Claude Opus 4.6 (Adaptive Reasoning, Max Effort) Anthropic	Anthropic	—	52.9	$6.25	—	fev. de 2026
·	Muse Spark Meta	Meta	—	52.2	—	—	abr. de 2026
·	Qwen3.6 Max Preview Alibaba	Alibaba	—	51.8	$1.30	—	abr. de 2026
·	Claude Opus 4.7 (Fast)Novo Anthropic	Anthropic	—	51.8	$30.00	1.0M tokens	mai. de 2026	MM
·	Claude Sonnet 4.6 (Adaptive Reasoning, Max Effort) Anthropic	Anthropic	—	51.7	$3.75	—	fev. de 2026
·	DeepSeek V4 Pro DeepSeek	DeepSeek	—	51.5	$0.43	1.0M tokens	abr. de 2026	OS
16	GPT-5.2 Chat OpenAI	OpenAI	1477	51.3	$1.75	128K tokens	dez. de 2025	MM
·	GPT-5.2 OpenAI	OpenAI	—	51.3	$1.75	400K tokens	dez. de 2025	MMR
·	Claude Opus 4.5 (Reasoning) Anthropic	Anthropic	—	49.7	$6.25	—	nov. de 2025
·	MiniMax M2.7 MiniMax	MiniMax	—	49.6	$0.30	197K tokens	out. de 2025	OSR
·	GPT-5.2-Codex OpenAI	OpenAI	—	49.0	$1.75	400K tokens	dez. de 2025	MMR

Preços em USD por 1M tokens de input. Estimativa em BRL: câmbio de mercado + IOF de 6,38%. Consulte metodologia para detalhes.

OS = Open Source • MM = Multimodal • R = Reasoning • Score AA: Artificial Analysis • Intel.: Artificial Analysis • Preços: OpenRouter •Ver metodologia completa

⚡ Velocidade de Inferência

Tokens por segundo — top 15

1Mercury 2Inception

719 tok/sTTFT 3271ms

2Granite 4.0 H SmallIBM

5Qwen3.5 2B (Reasoning)Alibaba

321 tok/sTTFT 237ms

6Granite 3.3 8B (Non-reasoning)IBM

305 tok/sTTFT 21773ms

7Nemotron 3 Nano Omni 30B A3B ReasoningNVIDIA

304 tok/sTTFT 598ms

8Gemini 3.1 Flash Lite PreviewGoogle

296 tok/sTTFT 5322ms

Velocidade em tokens/segundo medida via API. TTFT = Time to First Token (latência até a primeira resposta).

Modelos por Empresa

AI21 Labs (7) • Top AA: 10.9

AionLabs (3)

AlfredPros (1)

Alibaba (64) • Top AA: 56.6

Allen Institute for AI (8) • Top AA: 14.1

AllenAI (2) • Top AA: 12.2

Amazon (13) • Top AA: 35.7

Anthropic (33) • Top AA: 57.3

Arcee AI (7) • Top AA: 31.9

Baidu (5) • Top AA: 29.1

ByteDance (2) • Top AA: 33.5

ByteDance Seed (4) • Top AA: 33.5

China Mobile (3) • Top AA: 36.1

Cohere (6) • Top AA: 37.2

Databricks (1) • Top AA: 8.3

Deep Cogito (2)

DeepSeek (25) • Top AA: 51.5

EssentialAI (1)

Goliath 120B (1)

Google (61) • Top AA: 57.2

IBM (10) • Top AA: 14.7

Inception (1) • Top AA: 32.8

Inclusion AI (2) • Top AA: 33.6

InclusionAI (6) • Top AA: 38.5

Inflection (2)

Kimi (2) • Top AA: 40.9

Korea Telecom (2) • Top AA: 23.1

Kuaishou (1)

KwaiKAT (1) • Top AA: 36.0

Kwaipilot (1) • Top AA: 43.8

LG AI (2) • Top AA: 32.1

LG AI Research (3) • Top AA: 16.7

Liquid AI (7) • Top AA: 8.8

LiquidAI (1) • Top AA: 10.5

LongCat (1) • Top AA: 23.9

Luma AI (1)

MBZUAI Institute of Foundation Models (3) • Top AA: 24.1

Magnum v4 72B (1)

Mancer (1)

Meta (19) • Top AA: 52.2 Microsoft (5) • Top AA: 10.4

MiniMax (10) • Top AA: 49.6

Mistral (21) • Top AA: 22.8

Mistral AI (23) • Top AA: 39.2

Moonshot AI (1) • Top AA: 26.3

MoonshotAI (4) • Top AA: 53.9

Morph (2)

Motif Technologies (1) • Top AA: 19.1

MythoMax 13B (1)

NVIDIA (17) • Top AA: 36.0

Nanbeige (1) • Top AA: 16.1

Naver (1) • Top AA: 23.7

Nex AGI (1)

Nous (4)

Nous Research (7) • Top AA: 18.6

NousResearch (1)

OpenAI (75) • Top AA: 60.2

OpenBMB (1) • Top AA: 12.7

OpenChat (1) • Top AA: 8.3

Perplexity (5) • Top AA: 17.9

anthropic (1)

google (1)

Guia de Benchmarks de IA em 2026

GPT-5.5 é o modelo de IA mais inteligente em 2026 com Score AA de 60.2, segundo o AA Intelligence Index da Artificial Analysis — score composto atualizado a cada 6 horas. O mercado de modelos de linguagem (LLMs) em 2026 é dominado por uma corrida entre OpenAI, Anthropic, Google DeepMind, Meta AI e labs como DeepSeek, Alibaba (Qwen) e xAI (Grok). Com mais de 500 modelos disponíveis via API, escolher o modelo certo para cada caso de uso tornou-se uma decisão complexa que envolve qualidade (medida por benchmarks como AA Intelligence Index, MMLU e SWE-bench), preço por token, velocidade de inferência, contexto e capacidades multimodais.

Score AA — Artificial Analysis Intelligence Index↓

O AA Intelligence Index da Artificial Analysis é um score composto (0-100) que combina múltiplos benchmarks de raciocínio, código, matemática e ciência. É atualizado a cada 6 horas com dados da API pública da Artificial Analysis. Atualmente, GPT-5.5 lidera com Score AA de 60.2.

Intelligence Index (Artificial Analysis)↓

O Intelligence Index da Artificial Analysis é um score composto (0-100) que combina 10 avaliações diferentes: GDPval-AA, Terminal-Bench Hard, SciCode, AIME 2025, AA-LCR, IFBench, Humanity’s Last Exam, GPQA Diamond, e outros. É considerado mais robusto que benchmarks individuais por capturar múltiplas dimensões de inteligência.

Preços e Custo-Benefício↓

Os preços variam dramaticamente: de US$ 0.01 por milhão de tokens (modelos leves) até US$ 60+ por milhão (modelos frontier como Claude Opus e GPT-5 Pro). O melhor custo-benefício atual é Qwen3.5 0.8B (Reasoning) com Score AA 10.5 por apenas $0.01/1M tokens. Para aplicações de alto volume como chatbots de WhatsApp, a diferença pode representar milhares de reais por mês.

Context Window: Por Que Importa↓

O context window determina quanto texto o modelo pode processar de uma vez. Llama 4 Scout lidera com 10.0M tokens. Para aplicações que envolvem documentos longos, contratos ou análise de código, o context window é frequentemente mais importante que o benchmark de raciocínio.

Open Source vs Proprietário↓

Dos 500 modelos catalogados, 92 são open source (18%). Modelos open source como Llama 4 (Meta), Qwen 3 (Alibaba) e DeepSeek permitem deploy on-premises, personalização via fine-tuning e controle total sobre os dados. Modelos proprietários oferecem performance superior em tarefas complexas, mas dependem de APIs cloud com custos recorrentes.

Benchmark em Português Brasileiro↓

A maioria dos benchmarks internacionais testa modelos apenas em inglês. O SWEN.AI mantém um benchmark proprietário em português brasileiro com 10 modelos testados em ENEM, OAB, SAC, Tradução e Raciocínio Lógico. Ver resultados completos do Benchmark PT-BR →

Perguntas Frequentes

Qual é o melhor modelo de IA em 2026?↓

Pelo AA Intelligence Index da Artificial Analysis, GPT-5.5 lidera com Score AA de 60.2. Porém, o "melhor" depende do caso de uso: para custo-benefício, Qwen3.5 0.8B (Reasoning) oferece excelente qualidade por preço baixo.

O que é o Score AA?↓

O Score AA é o AA Intelligence Index da Artificial Analysis — um score composto (0-100) que combina múltiplos benchmarks de raciocínio, código, matemática e ciência. É atualizado automaticamente a cada 6 horas com dados da API pública da Artificial Analysis.

Qual o modelo de IA mais barato?↓

Entre modelos com boa qualidade (Score AA > 40), DeepSeek V4 Flash é o mais acessível a $0.14/1M tokens de input.

Os benchmarks são confiáveis?↓

Benchmarks são indicativos, não definitivos. O AA Intelligence Index é considerado robusto por combinar múltiplas avaliações padronizadas. Benchmarks individuais (MMLU, GPQA) podem sofrer contaminação. Recomendamos testar no seu caso de uso específico.

Qual modelo funciona melhor em português?↓

Claude (Anthropic) e Gemini (Google) tendem a ter melhor performance em português brasileiro. O SWEN.AI mantém um benchmark proprietário em PT-BR com 10 modelos testados em ENEM, OAB e SAC — veja os resultados em /benchmark/ptbr.

Explorar Outros Hubs

Ferramentas de IA Modelos Comparativos Guias Glossário

500 modelos • 420 com benchmarks • 415 com Score AA • Sincronizado: 24 de maio de 2026

Qual o melhor LLM hoje?

Mais Inteligente

Score AA — Artificial Analysis · atualizado a cada 6h

GPT-5.5

60.2

Claude Opus 4.7

57.3

Gemini 3.1 Pro Preview

57.2

GPT-5.4

56.8

GPT-5.4 Pro

56.8

Melhor custo-benefício?

Mais Entrega por Menos

Score AA por US$/1M tokens • R$ câmbio 5.70

DeepSeek V4 Flash

$0.14

R$0.85

GPT-5.4 Nano

$0.20

R$1.21

MiniMax M2.7

$0.30

R$1.82

GPT-5 Mini

$0.25

R$1.52

DeepSeek V3.2 Exp (Reasoning)

$0.28

R$1.67

Mais Barato (com Score AA)

Preço input por 1M tokens

DeepSeek V4 Flash

$0.14

AA 46.5

GPT-5.4 Nano

$0.20

AA 44.0

GPT-5 Mini

$0.25

AA 41.2

DeepSeek V3.2 Exp (Reasoning)

$0.28

AA 41.7

KAT-Coder-Pro V2

$0.30

AA 43.8

🏆 Ranking por Inteligência

Score AA — Artificial Analysis · top 20

🥇GPT-5.5OpenAI

60.2 🥈Claude Opus 4.7Anthropic

57.3 🥉Gemini 3.1 Pro PreviewGoogle

57.2 4GPT-5.4OpenAI

56.8 5GPT-5.4 ProOpenAI

56.8 6Qwen3.7 MaxAlibaba

56.6 7Gemini 3.5 FlashGoogle

55.3 8Kimi K2.6MoonshotAI

53.9 9GPT-5.3-CodexOpenAI

53.6 10Claude Opus 4.6 (Adaptive Reasoning, Max Effort)Anthropic

52.9

Score AA = AA Intelligence Index da Artificial Analysis. Atualizado a cada 6h. Clique em qualquer modelo para ver benchmarks detalhados.

500

Modelos

Empresas

415

Com Score AA

Reasoning

Open Source

122

Multimodal

Ranking por Score AA

Classificação baseada no AA Intelligence Index da Artificial Analysis — score composto atualizado a cada 6 horas.

#	Modelo	Empresa	ELO	Intel.	Input $/1M	Context	Lançamento	Tipo
·	GPT-5.5 OpenAI	OpenAI	—	60.2	$5.00	1.1M tokens	abr. de 2026	MM
·	Claude Opus 4.7 Anthropic	Anthropic	—	57.3	$6.25	1.0M tokens	abr. de 2026	MMR
·	Gemini 3.1 Pro Preview Google	Google	—	57.2	$2.00	1.0M tokens	fev. de 2026	MMR
·	GPT-5.4 OpenAI	OpenAI	—	56.8	$2.50	1.1M tokens	mar. de 2026	MMR
·	GPT-5.4 Pro OpenAI	OpenAI	—	56.8	$30.00	1.1M tokens	mar. de 2026	MMR
·	Qwen3.7 MaxNovo Alibaba	Alibaba	—	56.6	$2.50	—	mai. de 2026
·	Gemini 3.5 FlashNovo Google	Google	—	55.3	$1.50	1.0M tokens	mai. de 2026	MM
·	Kimi K2.6 MoonshotAI	MoonshotAI	—	53.9	$0.95	262K tokens	abr. de 2026	OSMMR
·	GPT-5.3-Codex OpenAI	OpenAI	—	53.6	$1.75	400K tokens	fev. de 2026	MMR
·	Claude Opus 4.6 (Adaptive Reasoning, Max Effort) Anthropic	Anthropic	—	52.9	$6.25	—	fev. de 2026
·	Muse Spark Meta	Meta	—	52.2	—	—	abr. de 2026
·	Qwen3.6 Max Preview Alibaba	Alibaba	—	51.8	$1.30	—	abr. de 2026
·	Claude Opus 4.7 (Fast)Novo Anthropic	Anthropic	—	51.8	$30.00	1.0M tokens	mai. de 2026	MM
·	Claude Sonnet 4.6 (Adaptive Reasoning, Max Effort) Anthropic	Anthropic	—	51.7	$3.75	—	fev. de 2026
·	DeepSeek V4 Pro DeepSeek	DeepSeek	—	51.5	$0.43	1.0M tokens	abr. de 2026	OS
16	GPT-5.2 Chat OpenAI	OpenAI	1477	51.3	$1.75	128K tokens	dez. de 2025	MM
·	GPT-5.2 OpenAI	OpenAI	—	51.3	$1.75	400K tokens	dez. de 2025	MMR
·	Claude Opus 4.5 (Reasoning) Anthropic	Anthropic	—	49.7	$6.25	—	nov. de 2025
·	MiniMax M2.7 MiniMax	MiniMax	—	49.6	$0.30	197K tokens	out. de 2025	OSR
·	GPT-5.2-Codex OpenAI	OpenAI	—	49.0	$1.75	400K tokens	dez. de 2025	MMR

Preços em USD por 1M tokens de input. Estimativa em BRL: câmbio de mercado + IOF de 6,38%. Consulte metodologia para detalhes.

OS = Open Source • MM = Multimodal • R = Reasoning • Score AA: Artificial Analysis • Intel.: Artificial Analysis • Preços: OpenRouter •Ver metodologia completa

⚡ Velocidade de Inferência

Tokens por segundo — top 15

1Mercury 2Inception

719 tok/sTTFT 3271ms

2Granite 4.0 H SmallIBM

5Qwen3.5 2B (Reasoning)Alibaba

321 tok/sTTFT 237ms

6Granite 3.3 8B (Non-reasoning)IBM

305 tok/sTTFT 21773ms

7Nemotron 3 Nano Omni 30B A3B ReasoningNVIDIA

304 tok/sTTFT 598ms

8Gemini 3.1 Flash Lite PreviewGoogle

296 tok/sTTFT 5322ms

Velocidade em tokens/segundo medida via API. TTFT = Time to First Token (latência até a primeira resposta).

Modelos por Empresa

AI21 Labs (7) • Top AA: 10.9

AionLabs (3)

AlfredPros (1)

Alibaba (64) • Top AA: 56.6

Allen Institute for AI (8) • Top AA: 14.1

AllenAI (2) • Top AA: 12.2

Amazon (13) • Top AA: 35.7

Anthropic (33) • Top AA: 57.3

Arcee AI (7) • Top AA: 31.9

Baidu (5) • Top AA: 29.1

ByteDance (2) • Top AA: 33.5

ByteDance Seed (4) • Top AA: 33.5

China Mobile (3) • Top AA: 36.1

Cohere (6) • Top AA: 37.2

Databricks (1) • Top AA: 8.3

Deep Cogito (2)

DeepSeek (25) • Top AA: 51.5

EssentialAI (1)

Goliath 120B (1)

Google (61) • Top AA: 57.2

IBM (10) • Top AA: 14.7

Inception (1) • Top AA: 32.8

Inclusion AI (2) • Top AA: 33.6

InclusionAI (6) • Top AA: 38.5

Inflection (2)

Kimi (2) • Top AA: 40.9

Korea Telecom (2) • Top AA: 23.1

Kuaishou (1)

KwaiKAT (1) • Top AA: 36.0

Kwaipilot (1) • Top AA: 43.8

LG AI (2) • Top AA: 32.1

LG AI Research (3) • Top AA: 16.7

Liquid AI (7) • Top AA: 8.8

LiquidAI (1) • Top AA: 10.5

LongCat (1) • Top AA: 23.9

Luma AI (1)

MBZUAI Institute of Foundation Models (3) • Top AA: 24.1

Magnum v4 72B (1)

Mancer (1)

Meta (19) • Top AA: 52.2 Microsoft (5) • Top AA: 10.4

MiniMax (10) • Top AA: 49.6

Mistral (21) • Top AA: 22.8

Mistral AI (23) • Top AA: 39.2

Moonshot AI (1) • Top AA: 26.3

MoonshotAI (4) • Top AA: 53.9

Morph (2)

Motif Technologies (1) • Top AA: 19.1

MythoMax 13B (1)

NVIDIA (17) • Top AA: 36.0

Nanbeige (1) • Top AA: 16.1

Naver (1) • Top AA: 23.7

Nex AGI (1)

Nous (4)

Nous Research (7) • Top AA: 18.6

NousResearch (1)

OpenAI (75) • Top AA: 60.2

OpenBMB (1) • Top AA: 12.7

OpenChat (1) • Top AA: 8.3

Perplexity (5) • Top AA: 17.9

anthropic (1)

google (1)

Guia de Benchmarks de IA em 2026

Score AA — Artificial Analysis Intelligence Index↓

Intelligence Index (Artificial Analysis)↓

Preços e Custo-Benefício↓

Context Window: Por Que Importa↓

Open Source vs Proprietário↓

Benchmark em Português Brasileiro↓

Perguntas Frequentes

Qual é o melhor modelo de IA em 2026?↓

O que é o Score AA?↓

Qual o modelo de IA mais barato?↓

Entre modelos com boa qualidade (Score AA > 40), DeepSeek V4 Flash é o mais acessível a $0.14/1M tokens de input.

Os benchmarks são confiáveis?↓

Qual modelo funciona melhor em português?↓

Explorar Outros Hubs

Ferramentas de IA Modelos Comparativos Guias Glossário

Explorar Modelos (Interativo)

0 modelos ativos

LMArena LiveBench Artificial Analysis

Ranking de Modelos de IA

Compare benchmarks, preços e capacidades dos principais modelos de inteligência artificial. O guia mais completo em português brasileiro.

Como Funciona Este Ranking?

Transparência sobre nossa metodologia e fontes de dados

Ordenar:

Compare Modelos

Use nossa ferramenta de comparação para analisar lado a lado até 4 modelos de IA.

Benchmark de IA 2026Compare +550 Modelos em Português

🏆 Ranking por Inteligência

Ranking por Score AA

⚡ Velocidade de Inferência

Modelos por Empresa

Guia de Benchmarks de IA em 2026

Perguntas Frequentes

Explorar Outros Hubs

🏆 Ranking por Inteligência

Ranking por Score AA

⚡ Velocidade de Inferência

Modelos por Empresa

Guia de Benchmarks de IA em 2026

Perguntas Frequentes

Explorar Outros Hubs

Explorar Modelos (Interativo)

Ranking de Modelos de IA

Como Funciona Este Ranking?

De Onde Vêm os Dados?

Como Funciona a Metodologia?

O Que É Considerado?

Limitações e Contexto

Compare Modelos

Explorar Modelos (Interativo)

Ranking de Modelos de IA

Como Funciona Este Ranking?

De Onde Vêm os Dados?

Como Funciona a Metodologia?

O Que É Considerado?

Limitações e Contexto

Compare Modelos