Claude爆火研究漏引华人团队成果,已挨打立正道歉

BlockBeatNews

据 1M AI News 监测,4 月 2 日 Anthropic 发布了一篇新论文,研究了 Claude 内部的「情绪机制」,在 Sonnet 4.5 中发现了 171 种「情绪向量」。这些情绪会在与之关联的情境中被激活,并且与人类的心理结构和情绪空间相似。

MBZUAI 硕士生 Chenxi Wang 发现,其团队在 2025 年 10 月发表的论文(《LLMs 会「感觉」吗?情绪回路的发现与控制》)才是首个系统研究大语言模型情绪产生内部机制的工作。当她读到 Anthropic 的论文时,第一反应是「这不是我们去年做的吗?」双方的核心区别在于:此前多数研究关注模型识别文本中的情绪(即情绪感知),而双方做的都是研究模型自身生成情绪(即情绪生成/内部机制)。Anthropic 的通讯作者 Jack Lindsey 最初认为双方工作与已有研究重叠,但 Chenxi Wang 逐一阅读并指出区别后,他认可了这一区分。目前,Anthropic 已经更新其论文博客,在「相关工作」部分明确添加了对这一工作的引用,事件以相对友好的方式得到解决。

华人团队的论文中曾提及三个核心发现:

第一,大模型内部确实存在与具体语义无关的、稳定的情绪表示,不同情绪在神经网络浅层就开始形成清晰的分组,比如愤怒和厌恶挨得近、悲伤和恐惧挨得近,与人类直觉一致。

第二,这些情绪机制由少数核心神经元和注意力头主导,通过消融实验发现,只需关闭 2-4 个神经元或 1-2 个注意力头,模型的情绪表达能力就会大幅下降。

第三,团队将这些核心组件整合成跨层的「情绪回路」,直接调节该回路可使模型生成指定情绪的准确率达到 99.65%,远超传统的提示词引导和向量操控方法,即使是之前最难控制的「惊讶」情绪也实现了 100% 准确表达。

该机制在 LLaMA 和 Qwen 等多个模型上均得到验证,证明这是大语言模型的通用规律。

Disclaimer: The information on this page may come from third parties and does not represent the views or opinions of Gate. The content displayed on this page is for reference only and does not constitute any financial, investment, or legal advice. Gate does not guarantee the accuracy or completeness of the information and shall not be liable for any losses arising from the use of this information. Virtual asset investments carry high risks and are subject to significant price volatility. You may lose all of your invested principal. Please fully understand the relevant risks and make prudent decisions based on your own financial situation and risk tolerance. For details, please refer to Disclaimer.
Commento
0/400
Nessun commento