Gate 广场「创作者认证激励计划」优质创作者持续招募中!
立即加入,发布优质内容,参与活动即可瓜分月度 $10,000+ 创作奖励!
认证申请步骤:
1️⃣ 打开 App 首页底部【广场】 → 点击右上角头像进入个人主页
2️⃣ 点击头像右下角【申请认证】,提交申请等待审核
立即报名:https://www.gate.com/questionnaire/7159
豪华代币奖池、Gate 精美周边、流量曝光等超 $10,000 丰厚奖励等你拿!
活动详情:https://www.gate.com/announcements/article/47889
DeepSeek 发布多重约束超连接架构以克服网络训练难题
DeepSeek 发布了开创性研究,介绍了一种新颖的网络架构——流形约束超连接 (mHC),在解决现有超连接网络 (HC) 系统中的基本挑战方面取得了重大突破。
问题:训练不稳定性和可扩展性限制
传统的超连接网络面临一个关键瓶颈——在训练过程中身份映射属性的崩溃导致广泛的不稳定性,并严重限制系统的扩展能力。随着模型规模的扩大,这些扰动会积累,造成性能下降,限制了基础模型开发的实际应用。
解决方案:基于流形的约束
创新的 mHC 架构通过一种复杂的方法应对这一挑战:它将 HC 的残差连接空间重新映射到受约束的流形几何上。通过在超连接拓扑结构上强制执行流形约束,该架构成功地在整个训练过程中恢复并保持身份映射特性。这一结构创新辅以严格的基础设施优化,确保理论的合理性和计算效率。
性能突破与可扩展性提升
结果充分证明了——mHC 相较于标准超连接网络带来了显著的性能提升,同时展现出优越的可扩展性。该架构即使在模型复杂度和规模增加时也能保持稳定,为下一代基础模型开辟了新的可能性。
学术贡献与未来影响
由谢震达、韦一轩、曹焕奇和梁文峰等第一作者带头的这项研究,将 mHC 定位为现有 HC 框架的实用且具有适应性的扩展。通过基于流形的约束,建立了更清晰的拓扑架构设计原则,为理解未来模型如何实现更高的稳定性和效率提供了坚实基础。DeepSeek 预期这些见解将引导基础模型架构的演进,迈向更稳健、更具扩展性的系统。