據《證券時報》報道,隨著模型規模的擴大,推理成本和訪存效率已成為限制大模型規模應用的關鍵瓶頸。字節跳動豆包大模型團隊近期推出全新稀疏模型架構UltraMem,該架構有效解決MoE推理時高額的訪存問題,推理速度較MoE架構提升兩倍至六倍,推理成本最高可降低83%。
該研究還揭示新架構的Scaling Law,證明其具備優異的Scaling特性,在性能上超越了MoE。實驗結果表明,訓練規模達2,000萬value的UltraMem模型,在同等計算資源下,可同時實現業界領先的推理速度和模型性能,為構建數十億規模value或expert開闢新路徑。(ta/da)
AASTOCKS新聞