Gate 廣場創作者新春激勵正式開啟,發帖解鎖 $60,000 豪華獎池
如何參與:
報名活動表單:https://www.gate.com/questionnaire/7315
使用廣場任意發帖小工具,搭配文字發布內容即可
豐厚獎勵一覽:
發帖即可可瓜分 $25,000 獎池
10 位幸運用戶:獲得 1 GT + Gate 鸭舌帽
Top 發帖獎勵:發帖與互動越多,排名越高,贏取 Gate 新年周邊、Gate 雙肩包等好禮
新手專屬福利:首帖即得 $50 獎勵,繼續發帖还能瓜分 $10,000 新手獎池
活動時間:2026 年 1 月 8 日 16:00 – 1 月 26 日 24:00(UTC+8)
詳情:https://www.gate.com/announcements/article/49112
DeepSeek 揭示了多重約束超連接架構,以克服網絡訓練中的挑戰
DeepSeek 發布了開創性的研究,介紹了一種新型的網絡架構——流形約束超連接 (mHC),在解決現有超連接網絡 (HC) 系統中的基本挑戰方面取得了重大進展。
問題:訓練不穩定性與擴展性限制
傳統的超連接網絡面臨一個關鍵瓶頸——在訓練過程中身份映射屬性的崩潰,導致普遍的不穩定性,並嚴重限制系統的擴展能力。這些干擾隨著模型規模的增大而積累,造成性能下降,限制了在基礎模型開發中的實際應用。
解決方案:基於流形的約束
創新的 mHC 架構通過一種精巧的方法來應對這一挑戰:它將 HC 的殘差連接空間重新映射到受約束的流形幾何上。通過在超連接拓撲上強制實施流形約束,該架構成功地在整個訓練過程中恢復並維持身份映射特性。這一結構創新得到了嚴格的基礎設施優化的補充,確保了理論的合理性與計算效率。
性能突破與擴展性提升
結果顯示——mHC 在性能上相較於標準超連接網絡有顯著提升,同時展現出優越的擴展性。該架構即使在模型複雜度和規模增加時也能保持穩定,為下一代基礎模型開辟了新的可能性。
學術貢獻與未來展望
由謝振達、韋一軒、曹歡奇與梁文峰共同領銜的這項研究,將 mHC 定位為現有 HC 框架的實用且可擴展的擴展。通過基於流形的約束建立更清晰的拓撲架構設計原則,這項工作為理解未來模型如何實現更高的穩定性與效率奠定了堅實的基礎。DeepSeek 預計這些見解將引導基礎模型架構的演進,朝著更穩健、更具擴展性的系統邁進。