Ranking de Modelos de IA
Compare benchmarks, preços e capacidades dos principais modelos de inteligência artificial. O guia mais completo em português brasileiro.
Como Funciona Este Ranking?
Transparência sobre nossa metodologia e fontes de dados
Análise independente em português de +550 modelos de IA das principais empresas. ELO do Chatbot Arena, Intelligence Index, preços em reais e especificações. Atualizado diariamente.
Por Luis Fernando Roquette • Última atualização: 24 de maio de 2026
500 modelos • 420 com benchmarks • 415 com Score AA • Sincronizado: 24 de maio de 2026
Qual o melhor LLM hoje?
Mais Inteligente
Score AA — Artificial Analysis · atualizado a cada 6h
Melhor custo-benefício?
Mais Entrega por Menos
Score AA por US$/1M tokens • R$ câmbio 5.70
Mais Barato (com Score AA)
Preço input por 1M tokens
Score AA — Artificial Analysis · top 20
Score AA = AA Intelligence Index da Artificial Analysis. Atualizado a cada 6h. Clique em qualquer modelo para ver benchmarks detalhados.
500
Modelos
62
Empresas
415
Com Score AA
89
Reasoning
92
Open Source
122
Multimodal
Classificação baseada no AA Intelligence Index da Artificial Analysis — score composto atualizado a cada 6 horas.
| # | Modelo | ELO | Input $/1M |
|---|---|---|---|
| · | GPT-5.5 OpenAI | — | $5.00 |
| · | Claude Opus 4.7 Anthropic | — | $6.25 |
| · | Gemini 3.1 Pro Preview Google | — | $2.00 |
| · | GPT-5.4 OpenAI | — | $2.50 |
| · | GPT-5.4 Pro OpenAI | — | $30.00 |
| · | Qwen3.7 MaxNovo Alibaba | — | $2.50 |
| · | Gemini 3.5 FlashNovo Google | — | $1.50 |
| · | Kimi K2.6 MoonshotAI | — | $0.95 |
| · | GPT-5.3-Codex OpenAI | — | $1.75 |
| · | Claude Opus 4.6 (Adaptive Reasoning, Max Effort) Anthropic | — | $6.25 |
| · | Muse Spark Meta | — | — |
| · | Qwen3.6 Max Preview Alibaba | — | $1.30 |
| · | Claude Opus 4.7 (Fast)Novo Anthropic | — | $30.00 |
| · | Claude Sonnet 4.6 (Adaptive Reasoning, Max Effort) Anthropic | — | $3.75 |
| · | DeepSeek V4 Pro DeepSeek | — | $0.43 |
| 16 | GPT-5.2 Chat OpenAI | 1477 | $1.75 |
| · | GPT-5.2 OpenAI | — | $1.75 |
| · | Claude Opus 4.5 (Reasoning) Anthropic | — | $6.25 |
| · | MiniMax M2.7 MiniMax | — | $0.30 |
| · | GPT-5.2-Codex OpenAI | — | $1.75 |
Preços em USD por 1M tokens de input. Estimativa em BRL: câmbio de mercado + IOF de 6,38%. Consulte metodologia para detalhes.
OS = Open Source • MM = Multimodal • R = Reasoning • Score AA: Artificial Analysis • Intel.: Artificial Analysis • Preços: OpenRouter •Ver metodologia completa
Tokens por segundo — top 15
Velocidade em tokens/segundo medida via API. TTFT = Time to First Token (latência até a primeira resposta).
GPT-5.5 é o modelo de IA mais inteligente em 2026 com Score AA de 60.2, segundo o AA Intelligence Index da Artificial Analysis — score composto atualizado a cada 6 horas. O mercado de modelos de linguagem (LLMs) em 2026 é dominado por uma corrida entre OpenAI, Anthropic, Google DeepMind, Meta AI e labs como DeepSeek, Alibaba (Qwen) e xAI (Grok). Com mais de 500 modelos disponíveis via API, escolher o modelo certo para cada caso de uso tornou-se uma decisão complexa que envolve qualidade (medida por benchmarks como AA Intelligence Index, MMLU e SWE-bench), preço por token, velocidade de inferência, contexto e capacidades multimodais.
Pelo AA Intelligence Index da Artificial Analysis, GPT-5.5 lidera com Score AA de 60.2. Porém, o "melhor" depende do caso de uso: para custo-benefício, Qwen3.5 0.8B (Reasoning) oferece excelente qualidade por preço baixo.
O Score AA é o AA Intelligence Index da Artificial Analysis — um score composto (0-100) que combina múltiplos benchmarks de raciocínio, código, matemática e ciência. É atualizado automaticamente a cada 6 horas com dados da API pública da Artificial Analysis.
Entre modelos com boa qualidade (Score AA > 40), DeepSeek V4 Flash é o mais acessível a $0.14/1M tokens de input.
Benchmarks são indicativos, não definitivos. O AA Intelligence Index é considerado robusto por combinar múltiplas avaliações padronizadas. Benchmarks individuais (MMLU, GPQA) podem sofrer contaminação. Recomendamos testar no seu caso de uso específico.
Claude (Anthropic) e Gemini (Google) tendem a ter melhor performance em português brasileiro. O SWEN.AI mantém um benchmark proprietário em PT-BR com 10 modelos testados em ENEM, OAB e SAC — veja os resultados em /benchmark/ptbr.
Compare benchmarks, preços e capacidades dos principais modelos de inteligência artificial. O guia mais completo em português brasileiro.
Transparência sobre nossa metodologia e fontes de dados