外媒报道,谷歌研究(Google Research)周二(24日)发表无需预先训练的压缩演算法TurboQuant,能在不影响模型精准度下,将大语言模型(LLM)的KV快取量压缩至3位元。在英伟达(NVDA.US) H100图像处理器(GPU)的基准测试中,相较於未量化的32位元键值,4位元的TurboQuant在计算注意力逻辑值(attention logits)时的效能提升最高可达8倍,同时将KV快取记忆体减少至少6倍。
KV快取用於储存先前计算出的注意力资料,使大语言模型无需在每个标记生成步骤中重新计算。随着上下文视窗不断扩大,这些快取正逐渐成为主要记忆体樽颈。虽然传统向量量化方法能缩小快取规模,但由於必须将量化常数与压缩资料一同储存,每个值会产生几位元小量记忆体开销。在更大上下文视窗下,这些开销会随之累积。TurboQuant算法则消除有关樽颈。
相关内容Meta、Alphabet及微软纳入CDX投资级指数
记忆体股Sandisk(SDNK.US)及美光(MU.US) 隔晚(25日)分别跌3.5%及3.4%。(fc/j)(美股为即时串流报价; OTC市场股票除外,资料延迟最少15分钟。)
AASTOCKS新闻