GPT-5.5 se aproxima do Mythos, mas resultados variados em benchmarks

Após análise, GPT-5.5 é comparável ao Mythos, apesar de seu tamanho menor. Resultados de benchmarks como VendingBench-2 e CyberGym são impressionantes, mas desempenho em SWE-Bench Pro foi decepcionante.

Redacao SWEN23 de abril de 2026, 20:34 Atualizado há cerca de 1 hora

1 min

Twitter Radar (benchmark_moves)

x.com

Ver original

Compartilhe:

Após alguma deliberação, acho que o GPT-5.5 está próximo do Mythos, apesar de ser apenas ~1/5 a ~1/2 do tamanho.*

Os resultados do VendingBench-2 são bons.
Os resultados do ARC-AGI são bons.
Os resultados do FrontierMath 4 são bons.
Os resultados do CritPt são muito bons.
(Infelizmente, não há resultados do Mythos para comparar.)

Os resultados do CyberGym são insanos.
Os resultados do TerminalBench 2.0 são insanos.
Os resultados do UK AISI cyber range são insanos.
(esses 3 resultados estão todos no mesmo nível do Claude Mythos.)

Mas, por algum motivo, ele simplesmente falha no SWE-Bench Pro, o que me surpreendeu, mas deve ser descartado como ruído ou inteligência espinhosa.

*Eu acho que o GPT-5.4 é ~1-2T.
O GPT-5.5 é ~2-5T.
O Mythos é ~10T.

Os preços do Mythos parecem meio ridículos a $125.

O Mythos pode acabar sendo o momento do GPT-4.5 da Anthropic.

Escrito porVerificado

Redação SWEN

Equipe Editorial

A equipe SWEN é formada por especialistas em Inteligência Artificial e tecnologia, trazendo as notícias mais relevantes do setor com análises aprofundadas e linguagem acessível. Nossa missão é democratizar o conhecimento sobre IA para todos os brasileiros.

Ver perfil completo