Gate 广场「创作者认证激励计划」优质创作者持续招募中!
立即加入,发布优质内容,参与活动即可瓜分月度 $10,000+ 创作奖励!
认证申请步骤:
1️⃣ 打开 App 首页底部【广场】 → 点击右上角头像进入个人主页
2️⃣ 点击头像右下角【申请认证】,提交申请等待审核
立即报名:https://www.gate.com/questionnaire/7159
豪华代币奖池、Gate 精美周边、流量曝光等超 $10,000 丰厚奖励等你拿!
活动详情:https://www.gate.com/announcements/article/47889
DeepSeek的多元突破:超连接获得稳定性升级
DeepSeek通过一篇介绍Manifold-Constrained Hyperconnections (mHC)的新论文,推动了神经网络架构设计的边界,据PANews报道。核心创新解决了多年来困扰超连接网络(HC)的一个持续难题:当恒等映射属性被破坏时,训练变得不稳定,扩展变得困难。
创新背后的问题
超连接网络曾展现出潜力,但逐渐遇到瓶颈。随着这些网络变得越来越复杂,支撑它们的残差连接开始表现出不可预测的行为。这一连锁问题使得大规模训练变得日益困难,限制了HC在实际应用中的部署。
Manifold约束如何解决问题
mHC方案设计巧妙:它将HC固有的残差连接空间限制在特定的流形上。通过这样做,DeepSeek恢复了保持网络稳定的恒等映射特性。但这还不是全部——团队还引入了严格的基础设施优化,以保证计算效率,确保架构在不牺牲性能的前提下实现扩展。
现实影响
结果不言自明。实验显示出显著的性能提升和极大改善的可扩展性。DeepSeek相信,mHC不仅仅是一个补丁;它是HC的一个灵活且实用的扩展,开启了新的可能性。团队将此视为迈向更优拓扑结构设计的垫脚石,也是下一代基础模型更清晰路线图的关键一步。
研究团队
该论文由谢震达、韦一轩和曹焕奇等研究人员合作完成,梁文峰也为此工作做出了贡献。他们的专业知识体现了DeepSeek在基础层面推动AI基础设施发展的承诺。