Google 發表 KV 快取壓縮技術儲存需求料遭衝擊 X

26/03/2026 08:04

<匯港通訊> 大型語言模型一直面臨擴展性問題,隨著上下文視窗的增長,儲存鍵值(KV)快取所需的記憶體也會成比例增加,消耗圖像處理器(GPU)記憶體並降低推理速度。針對這種現象,Google(谷歌)推出三種壓縮演算法,包括 TurboQuant、PolarQuant 和量化 Johnson-Lindenstrauss(QJL),這三種演算法旨在高效壓縮緩存,同時不降低模型輸出品質。

新型內存壓縮技術 TurboQuant,能將大模型儲存鍵值暫存壓縮至3比特(bit),實現6倍內存縮減與最高8倍加速。

據悉,TurboQuant 技術可以在不損失準確性的前提下,將大模型的快取記憶體佔用大幅減少,在 Nvidia(輝達)(NVDA.US)H100 GPU 上,4比特 TurboQuant 在計算注意力邏輯值方面,比32比特未量化鍵快8倍。PolarQuant 在「大海撈針」檢索任務中表現近乎無失真。 (BC)

#Google #谷歌 #美股

本文所提供的任何資料只供參考之用。本網站概不對這些資料的準確性、完整性、合時性或對基於這些資料而作出的任何決定負責。而其他網站的轉載或翻譯,並不代表本網站推介或認可該等其他網站。本網站不對該等其他網站的內容負責,亦未核實有關內容。