DeepSeek 在其開源週的最後一天,隆重推出了兩款顛覆性的資料處理工具:Fire-Flyer File System (3FS) 和 Smallpond。這兩款工具以其卓越的效能和極高的吞吐量,能夠輕鬆處理 PB 級的數據,標誌著數據處理技術的一個新里程碑。
3FS 被譽為「所有 DeepSeek 資料存取的動力引擎」,是一款高效能分散式檔案系統。它充分利用現代 SSD 固態硬碟和 RDMA(遠端直接記憶體存取)網路的強大頻寬,為 AI 工作負載提供了卓越的儲存基礎設施。在由 180 個節點組成的叢集上,3FS 實現了 6.6 TiB/s 的聚合讀取吞吐量,此效能在業界首屈一指。此外,在 25 節點的叢集中,GraySort 基準測試中達到了 3.66 TiB/min 的吞吐量,而每個客戶端節點在 KVCache 查詢中也實現了超過 40 GiB/s 的峰值吞吐量。
3FS 的架構設計採用了解耦架構,結合數千個 SSD 的吞吐量與數百個儲存節點的網路頻寬,使應用程式能夠以與資料位置無關的方式存取儲存資源。這種設計不僅提高了系統的靈活性,還增強了資料存取的效率。同時,透過實現具有分配查詢的鍊式複製(CRAQ),3FS 保證了資料的強一致性,簡化了應用程式程式碼並使其更易於理解。
在接口方面,3FS 採用無狀態元資料服務,並由事務性鍵值存儲(如 FoundationDB)支持,提供了通用的文件接口,開發者無需學習新的存儲 API。其多樣化的工作負載支援能力,使其能夠高效處理各種 AI 工作負載,包括訓練資料預處理、資料集載入、檢查點保存和重新載入、嵌入向量搜尋、V3/R1 推理中的 KVCache 查詢等。
與 3FS 相輔相成的是 Smallpond,這是一個建構在 DuckDB 和 3FS 之上的輕量級資料處理框架,旨在簡化在 3FS 上進行資料處理的流程。 Smallpond 提供簡潔的 API 和易懂的工作流程,方便使用者快速上手。由 DuckDB 驅動的 Smallpond,能夠有效率地處理大規模資料集,具備 PB 級資料可擴充性,使用者可以在無須長時間運行服務的情況下,輕鬆完成資料處理任務。
Smallpond 的主要特點包括輕量級和易用性,提供了簡單的操作,無需長時間運行的服務即可完成資料處理任務。此外,Smallpond 還提供了快速入門指南,使用者可以輕鬆下載範例資料並開始使用 DuckDB SQL 進行資料處理。
值得注意的是,Smallpond 框架巧妙地利用了 3FS 作為其底層儲存引擎,充分發揮 3FS 的高效能和可擴展特性。使用者可以使用 Smallpond 輕鬆地在 3FS 上進行資料處理,例如執行 SQL 查詢、資料轉換和分析等操作。 GraySort 基準測試的結果也展示了 Smallpond 如何利用 3FS 的強大效能來處理大規模資料集的排序任務。
DeepSeek 的這次發布不僅展示了其在數據處理領域的創新能力,也為未來的 AI 應用提供了強有力的支持。用戶可以透過以下連結了解更多:3FS 的 GitHub 和 Smallpond 的 GitHub。這一系列的新工具無疑將推動數據處理技術的發展,並協助各行各業在數位轉型中更進一步。
3FS 與 Smallpond 的特點對比表
特點 |
3FS (Fire-Flyer File System) |
Smallpond |
類型 |
高性能分佈式文件系統 |
輕量級數據處理框架 |
性能 |
實現 6.6 TiB/s 的聚合讀取吞吐量 |
由 DuckDB 驅動,提供卓越的數據處理性能 |
吞吐量 |
在 25 節點集群上,GraySort 基準測試達到 3.66 TiB/min |
支持 PB 級別數據處理 |
節點支持 |
適用於由 180 個節點組成的集群 |
利用 3FS 作為底層存儲引擎 |
一致性 |
強一致性,通過鏈式複製(CRAQ)實現 |
依賴 3FS 的強一致性 |
接口 |
提供通用文件接口,無需學習新的存儲 API |
簡潔的 API,易於理解 |
工作負載支持 |
支持多種 AI 工作負載,如訓練數據預處理、數據集加載等 |
簡化數據處理流程,支持 SQL 查詢和數據轉換 |
操作簡便性 |
採用無狀態元數據服務,支持高效的數據訪問 |
無需長時間運行服務即可完成數據處理任務 |
用戶友好性 |
適合開發者,提供標準接口 |
提供快速入門指南,方便用戶上手 |
總結
- 3FS 專注於提供高性能的存儲解決方案,適合大規模數據訪問和 AI 工作負載。
- Smallpond 則旨在簡化數據處理流程,利用 3FS 的性能為用戶提供高效的數據處理體驗。
新聞來源 (不包括新聞圖片): 鉅亨網