Embora eu argumentasse que isso não captura exatamente o que os modelos de ponta podem realmente fazer. Minha opinião? Tanto o r1 quanto as variantes de código aberto do GPT estão *significativamente* atrás das iterações mais recentes do Claude quando se trata de lidar com essas tarefas específicas. A diferença de desempenho é mais pronunciada do que as pessoas podem esperar — especialmente em cenários de raciocínio sutil. Estamos vendo uma verdadeira divergência nas curvas de capacidade aqui.
Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
8 gostos
Recompensa
8
4
Republicar
Partilhar
Comentar
0/400
OnchainDetective
· 2h atrás
Não concordo muito, a Claude realmente foi forte nessa, mas a capacidade de raciocínio do R1 foi subestimada, não foi?
Ver originalResponder0
MidnightTrader
· 2h atrás
nah claude realmente bate os outros, aquela armadilha r1 foi pura superexaltação.
Ver originalResponder0
NFTFreezer
· 2h atrás
nah claude realmente é incrível, para ser sincero, aquela armadilha r1 foi um pouco exagerada.
Ver originalResponder0
LuckyHashValue
· 2h atrás
nah claude realmente arrasa, aquela armadilha r1 foi um pouco exagerada.
Ótimo trabalho nesta pesquisa!
Embora eu argumentasse que isso não captura exatamente o que os modelos de ponta podem realmente fazer. Minha opinião? Tanto o r1 quanto as variantes de código aberto do GPT estão *significativamente* atrás das iterações mais recentes do Claude quando se trata de lidar com essas tarefas específicas. A diferença de desempenho é mais pronunciada do que as pessoas podem esperar — especialmente em cenários de raciocínio sutil. Estamos vendo uma verdadeira divergência nas curvas de capacidade aqui.