阿里云通义千问开源两大模型视觉理解能力超越GPT-4o与Claude3.5

新闻分享

如欲分享新闻，请填写收件人及阁下之电邮，再按「送出」。*必需填写

收件者电邮*

请用分号「;」分隔不同电邮地址，例子：a@a.com; b@b.com

阁下之电邮*

分享内容

阿里云通义千问开源两大模型视觉理解能力超越GPT-4o与Claude3.5

阿里云通义千问开源全新视觉模型Qwen2.5-VL及Qwen2.5-1M。当中，Qwen2.5-VL涉及3B、7B和72B三个尺寸版本，而旗舰版Qwen2.5-VL-72B在13项权威评测中夺得视觉理...

重设

送出

视窗将於5秒内关闭

阿里云通义千问开源两大模型视觉理解能力超越GPT-4o与Claude3.5

关闭

AASTOCKS新闻

推荐

利好

利淡

沽空

股价

# 阿里巴巴

阿里云通义千问开源全新视觉模型Qwen2.5-VL及Qwen2.5-1M。当中，Qwen2.5-VL涉及3B、7B和72B三个尺寸版本，而旗舰版Qwen2.5-VL-72B在13项权威评测中夺得视觉理解冠军，全面超越GPT-4o与Claude3.5。

新的Qwen2.5-VL能够更准确地解析图像内容，突破性地支持超过一小时的视频理解，无需微调就可变身为一个能操控手机和电脑的AI视觉智能体(Visual Agents)，实现给指定朋友送祝福、电脑修图、手机订票等多步骤复杂操作。另外，Qwen2.5-VL不仅擅长识别常见物体，如花、鸟、鱼和昆虫，还能够分析图像中的文本、图表、图标、图形和布局。

相关影片DeepSeek浪潮未完？复制外围炒法？
Qwen2.5-1M方面，阿里云通义千问推出7B与14B两个尺寸，均在处理长文本任务中稳定超越GPT-4o-mini；同时开源推理框架，在处理百万级别长文本输入时可实现近7倍的提速。也是公司首次将开源Qwen模型的上下文扩展到1M长度。(jl/da)

AASTOCKS新闻

免责声明