新闻分享
如欲分享新闻,请填写收件人及阁下之电邮,再按「送出」。*必需填写
收件者电邮*
请用分号「;」分隔不同电邮地址,例子:a@a.com; b@b.com
阁下之电邮*
分享内容
阿里云通义千问开源两大模型 视觉理解能力超越GPT-4o与Claude3.5
阿里云通义千问开源全新视觉模型Qwen2.5-VL及Qwen2.5-1M。当中,Qwen2.5-VL涉及3B、7B和72B三个尺寸版本,而旗舰版Qwen2.5-VL-72B在13项权威评测中夺得视觉理...
重设
送出
视窗将於5秒内关闭
阿里云通义千问开源两大模型 视觉理解能力超越GPT-4o与Claude3.5
关闭
AASTOCKS新闻
推荐
36
利好
57
利淡
19
 
 
# 阿里巴巴

阿里云通义千问开源全新视觉模型Qwen2.5-VL及Qwen2.5-1M。当中,Qwen2.5-VL涉及3B、7B和72B三个尺寸版本,而旗舰版Qwen2.5-VL-72B在13项权威评测中夺得视觉理解冠军,全面超越GPT-4o与Claude3.5。

新的Qwen2.5-VL能够更准确地解析图像内容,突破性地支持超过一小时的视频理解,无需微调就可变身为一个能操控手机和电脑的AI视觉智能体(Visual Agents),实现给指定朋友送祝福、电脑修图、手机订票等多步骤复杂操作。另外,Qwen2.5-VL不仅擅长识别常见物体,如花、鸟、鱼和昆虫,还能够分析图像中的文本、图表、图标、图形和布局。

相关影片DeepSeek浪潮未完?复制外围炒法?
Qwen2.5-1M方面,阿里云通义千问推出7B与14B两个尺寸,均在处理长文本任务中稳定超越GPT-4o-mini;同时开源推理框架,在处理百万级别长文本输入时可实现近7倍的提速。也是公司首次将开源Qwen模型的上下文扩展到1M长度。(jl/da)

AASTOCKS新闻

AASTOCKS.com LIMITED 版权所有,不得转载