Embora eu argumentasse que isso não captura exatamente o que os modelos de ponta podem realmente fazer. Minha opinião? Tanto o r1 quanto as variantes de código aberto do GPT estão *significativamente* atrás das iterações mais recentes do Claude quando se trata de lidar com essas tarefas específicas. A diferença de desempenho é mais pronunciada do que as pessoas podem esperar — especialmente em cenários de raciocínio sutil. Estamos vendo uma verdadeira divergência nas curvas de capacidade aqui.
Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
8 Curtidas
Recompensa
8
4
Repostar
Compartilhar
Comentário
0/400
OnchainDetective
· 4h atrás
Não concordo muito, a Claude realmente foi forte nessa, mas a capacidade de raciocínio do R1 foi subestimada, não foi?
Ver originalResponder0
MidnightTrader
· 4h atrás
nah claude realmente bate os outros, aquela armadilha r1 foi pura superexaltação.
Ver originalResponder0
NFTFreezer
· 4h atrás
nah claude realmente é incrível, para ser sincero, aquela armadilha r1 foi um pouco exagerada.
Ver originalResponder0
LuckyHashValue
· 5h atrás
nah claude realmente arrasa, aquela armadilha r1 foi um pouco exagerada.
Ótimo trabalho nesta pesquisa!
Embora eu argumentasse que isso não captura exatamente o que os modelos de ponta podem realmente fazer. Minha opinião? Tanto o r1 quanto as variantes de código aberto do GPT estão *significativamente* atrás das iterações mais recentes do Claude quando se trata de lidar com essas tarefas específicas. A diferença de desempenho é mais pronunciada do que as pessoas podem esperar — especialmente em cenários de raciocínio sutil. Estamos vendo uma verdadeira divergência nas curvas de capacidade aqui.