Após análise, GPT-5.5 é comparável ao Mythos, apesar de seu tamanho menor. Resultados de benchmarks como VendingBench-2 e CyberGym são impressionantes, mas desempenho em SWE-Bench Pro foi decepcionante.
Após alguma deliberação, acho que o GPT-5.5 está próximo do Mythos, apesar de ser apenas ~1/5 a ~1/2 do tamanho.*
Os resultados do VendingBench-2 são bons.
Os resultados do ARC-AGI são bons.
Os resultados do FrontierMath 4 são bons.
Os resultados do CritPt são muito bons.
(Infelizmente, não há resultados do Mythos para comparar.)
Os resultados do CyberGym são insanos.
Os resultados do TerminalBench 2.0 são insanos.
Os resultados do UK AISI cyber range são insanos.
(esses 3 resultados estão todos no mesmo nível do Claude Mythos.)
Mas, por algum motivo, ele simplesmente falha no SWE-Bench Pro, o que me surpreendeu, mas deve ser descartado como ruído ou inteligência espinhosa.
*Eu acho que o GPT-5.4 é ~1-2T.
O GPT-5.5 é ~2-5T.
O Mythos é ~10T.
Os preços do Mythos parecem meio ridículos a $125.
O Mythos pode acabar sendo o momento do GPT-4.5 da Anthropic.