DeepSeek日前宣布本周为开源周,并将连续开源五个软件库。公司於今日(24日)宣布开源了开源周首款用於Hopper GPU的高效型MLA解码核——FlashMLA。在GitHub上,目前该项目已收获超过1700star,并且拥有62个Fork。
MLA是DeepSeek V2-V3系列大模型最为重要技术创新,主要用於减少推理过程的KV Cache,进而降低推理成本。而FlashMLA是Hopper GPUs的有效MLA解码内核,可针对可变长度序列进行优化,目前主要发布包括BF16,以及块大小为64的分页kvcache。
在基准测试性能表现上,FlashMLA在英伟达(NVDA.US) H800 SXM5 GPU上可实现3000 GB/s 的内存速度以及580TFLOPS的计算上限。(jl/a)(美股为即时串流报价; OTC市场股票除外,资料延迟最少15分钟。)
AASTOCKS新闻