5月12日|全球權威評測機構Artificial Analysis今日發佈全新Coding Agent基準Artificial Analysis Coding Agent Index,用於衡量Agent harnesses與模型的組合在SWE-Bench-Pro-Hard-AA、Terminal-Bench v2和SWE-Atlas-QnA主流基準上的表現。其中,智譜GLM-5.1(在Claude Code中運行)取得開源第一。
Artificial Analysis在官方推文中點明瞭這一新榜單的“含金量”:“當開發者使用AI編程時,他們不僅在選擇模型,也在將其與特定的Agent harness搭配使用。只有對這一組合進行基準測試,才能真正理解並比較不同模型的真實性能。”
從評測結果上來看,GLM-5.1代表了國產大模型在實際編程Agent場景下的SOTA級別能力。
新聞來源 (不包括新聞圖片): 格隆匯