Хотя я бы поспорил, что это не совсем отражает то, что могут действительно сделать современные модели. Мое мнение? И r1, и открытые варианты GPT значительно отстают от более новых итераций Claude, когда дело касается выполнения этих конкретных задач. Разрыв в производительности более заметен, чем люди могут ожидать — особенно в сценариях нюансированного рассуждения. Мы наблюдаем настоящую дивергенцию в кривых возможностей.
Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
8 Лайков
Награда
8
4
Репост
Поделиться
комментарий
0/400
OnchainDetective
· 2ч назад
Не совсем согласен, Claude действительно силен в этот раз, но способности R1 к рассуждению, похоже, недооценены.
Посмотреть ОригиналОтветить0
MidnightTrader
· 2ч назад
nah claude действительно бьет других, r1 эта ловушка чисто переоценена
Посмотреть ОригиналОтветить0
NFTFreezer
· 2ч назад
nah claude действительно крут, r1 эта ловушка, честно говоря, немного переоценена.
Посмотреть ОригиналОтветить0
LuckyHashValue
· 2ч назад
нах клауд действительно раздавил, r1 эта ловушка немного переоценена.
Отличная работа над этим исследованием!
Хотя я бы поспорил, что это не совсем отражает то, что могут действительно сделать современные модели. Мое мнение? И r1, и открытые варианты GPT значительно отстают от более новых итераций Claude, когда дело касается выполнения этих конкретных задач. Разрыв в производительности более заметен, чем люди могут ожидать — особенно в сценариях нюансированного рассуждения. Мы наблюдаем настоящую дивергенцию в кривых возможностей.