
最新搜看股票

报价
返回 放大 + 缩小 - | |
DeepSeek发布最新NSA 加速文本训练与推理
推荐 1 利好 4 利淡 1 AASTOCKS新闻
|
|
![]() |
|
DeepSeek发布最新技术论文《原生稀疏注意力:硬件对齐且可原生训练的稀疏注意力机制》(Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention)。论文署名中,DeepSeek创始人梁文锋也作为共创在列。 该论文提出一种名为NSA(Natively Sparse Attention),即「原生稀疏注意力」的新型注意力机制。NSA是一种用於超快速长文本训练与推理的、硬件对齐且可原生训练的稀疏注意力机制。据分析,在64K长文本场景下,NSA实现解码速度提升11.6倍、前向传播9倍加速及反向传播6倍加速。(ta/w) AASTOCKS新闻 |
|