<匯港通訊> 中國人工智能(AI)大模型公司DeepSeek,以僅約560萬美元及使用2048顆Nvidia「H800」繪圖處理器(GPU),推出的新模型DeepSeek-R1,成本遠低美國科技巨擘,震驚全球市場。半導體研究機構SemiAnalysis近日發表報告估計,DeepSeek歷來硬體投資支出遠高於5億美元。
SemiAnalysis報告估計,DeepSeek使用5萬顆Nvidia的Hopper架構GPU,包括1萬顆H800及1萬顆「H100」,還有特供中國的「H20」,這些GPU主要用於AI訓練、研究及財務模型。
換算下來,DeepSeek總資本支出約為16億美元,其中營運成本估計有9.44億美元,對GPU的投資額超過5億美元。
綜合外媒報道,DeepSeek指只用6710億個參數數進行訓練的「V3」模型;2048顆Nvidia「H800」GPU、僅費時2個月,相當於280萬個GPU小時。
至於Facebook母公司Meta Platforms使用4050億個參數訓練的「Llama 3」模型,用3080萬個GPU小時,花費運算資源較V3多10倍,並採用的超級電腦內建16384顆「H100」GPU、費時54天。
至於DeepSeek日前文件透露,其模型DeepSeek V3的訓練成本僅為557.6萬美元,並註明成本包括V3的官方訓練,不包括與架構、演算法或資料相關的先前研究和消融實驗(ablation experiments)的成本。 (JJ)
#AI
新聞來源 (不包括新聞圖片): 滙港資訊