國信證券發表報告表示,中國人工智能公司深度求索(DeepSeek)於去年12月26日上線並開源DeepSeek-V3模型,多項評測超同類開源模型,在重要領域與頂尖閉源模型相當,訓練成本低。模型層採用MoE架構,經多階段訓練與能力提煉,在知識、代碼、數學推理等測評中領先開源模型。架構層沿用V2架構,引入新技術,如無輔助損失負載均衡策略、MTP提升數據利用率。訓練層通過DualPipe算法和FP8混合精度訓練實現成本控制與效率提升。
推理層先推出R1-Lite模型,後將R1推理能力遷移至V3提升其性能,推理算力包含GB300、博通、marvell等各類asic芯片。2025年1月發布的DeepSeek-R1模型在多測試中超越OpenAI的o1,在數學、編程及多種測試中表現出色。
國信證券指,DeepSeek的MoE較傳統MoE有多方面改進。與傳統MoE架構相比,DeepSeek MoE使用了更細粒度的專家,並將部分專家設置為共享專家,能夠更精確地針對特定的問題提供解決方案。同時,傳統MoE架構採用輔助損失來鼓勵負載平衡,以免不平衡的專家載荷導致計算效率降低,但這可能在某些情況下影響模型性能。DeepSeekMoE引入了無輔助損失的負載平衡策略,在每個專家模型的任務匹配程度評分中添加一個偏置項,用於調整每個專家在決定哪些專家應該處理哪些任務時的負載,同時使用補充序列級輔助損失,以此來優化整個系統的性能和效率。
該行指,為了促進模型的高效訓練,DeepSeek實施了工程優化。首先,模型使用了DualPipe算法,以實現高效的管道並行。與現有方法相比,DualPipe具有更少的管道氣泡(等待數據處理或通信延遲形成的停滯區域),在模型訓練的前向和後向傳播過程實現了重疊計算和通信,從而提高了整體的訓練效率。其次,DeepSeek引入了FP8混合精度訓練,優化了訓練期間的內存佔用。
DualPipe技術優化通信成本。在大規模分布式訓練系統中,每個計算節點需要頻繁地與其他節點交換信息,導致部分時間在等待數據的傳輸,計算資源不能持續進行數據處理,資源利用率低下。以DeepSeek-V3為例,在模型訓練時跨節點的專家並行性帶來的通信開銷導致計算與通信的比率約為1:1。為了解決這一問題,DeepSeek在單獨的前向和後向塊內部重疊計算和通信,通過採用雙向管道調度, 同時從管道的兩端供給數據,使大部分通信可以完全重疊,從而實現通信成本的降低。
本周一(20)日晚,擁有660B參數的超大規模模型DeepSeekR1正式發布。這款模型在數學任務上表現出色,如在AIME2024上獲得79.8%的pass@1得分,略超OpenAI-o1;在MATH-500上得分高達97.3%,與OpenAI-o1相當。編程任務方面,如Codeforces 上獲得2029 Elo評級,超越96.3%的人類參與者。在MMLU、MMLU-Pro和GPQA Diamond等知識基準測試中,DeepSeek R1得分分別為90.8%、84.0%和71.5%,雖略低於OpenAI-o1,但優於其他閉源模型。在最新公布的大模型競技場LM Arena的綜合榜單中,DeepSeek R1排名第三, 與o1並列。(wl/k)
AASTOCKS新聞