DeepSeek日前宣布本周為開源周,並將連續開源五個軟件庫。公司於今日(24日)宣布開源了開源周首款用於Hopper GPU的高效型MLA解碼核——FlashMLA。在GitHub上,目前該項目已收獲超過1700star,並且擁有62個Fork。
MLA是DeepSeek V2-V3系列大模型最為重要技術創新,主要用於減少推理過程的KV Cache,進而降低推理成本。而FlashMLA是Hopper GPUs的有效MLA解碼內核,可針對可變長度序列進行優化,目前主要發布包括BF16,以及塊大小為64的分頁kvcache。
在基準測試性能表現上,FlashMLA在英偉達(NVDA.US) H800 SXM5 GPU上可實現3000 GB/s 的內存速度以及580TFLOPS的計算上限。(jl/a)(美股為即時串流報價; OTC市場股票除外,資料延遲最少15分鐘。)
AASTOCKS新聞