阿里雲通義千問開源全新視覺模型Qwen2.5-VL及Qwen2.5-1M。當中,Qwen2.5-VL涉及3B、7B和72B三個尺寸版本,而旗艦版Qwen2.5-VL-72B在13項權威評測中奪得視覺理解冠軍,全面超越GPT-4o與Claude3.5。
新的Qwen2.5-VL能夠更準確地解析圖像內容,突破性地支持超過一小時的視頻理解,無需微調就可變身為一個能操控手機和電腦的AI視覺智能體(Visual Agents),實現給指定朋友送祝福、電腦修圖、手機訂票等多步驟複雜操作。另外,Qwen2.5-VL不僅擅長識別常見物體,如花、鳥、魚和昆蟲,還能夠分析圖像中的文本、圖表、圖標、圖形和佈局。
Qwen2.5-1M方面,阿里雲通義千問推出7B與14B兩個尺寸,均在處理長文本任務中穩定超越GPT-4o-mini;同時開源推理框架,在處理百萬級別長文本輸入時可實現近7倍的提速。也是公司首次將開源Qwen模型的上下文擴展到1M長度。(jl/da)
AASTOCKS新聞