內地AI初創DeepSeek(深度求索)在元旦日發布一篇新論文,提出一種名為mHC(流形約束超連接)的新架構,旨在解決傳統超連接在大規模模型訓練中的不穩定性問題,同時保持其顯著的性能增益 。
DeepSeek提出mHC是通過將傳統Transformer單一殘差流擴展為多流並行架構,利用Sinkhorn-Knopp演算法將連接矩陣約束在雙擬隨機矩陣流形上,成功解決超連接(HC)在大規模訓練中因破壞恒等映射屬性而導致的數值不穩定和訊號爆炸問題。
該論文第一作者包括Zhenda Xie(解振達)、Yixuan Wei(韋毅軒)、Huanqi Cao三位。而DeepSeek創始人梁文鋒也在作者名單中。(ta/w)
AASTOCKS新聞