可操控手机电脑！阿里云通义开源Qwen2.5-VL视觉理解能力提升

拥有准确地解析图像内容也意味着，大模型无需微调就可变身为一个能操控手机和电脑的AI视觉智能体，其可以完成指定朋友送祝福、电脑修图、手机订票等多步骤复杂操作。

通义团队此前曾开源Qwen-VL及Qwen2-VL两代模型，支持开发者在手机、汽车、教育、金融、天文等不同场景进行AI探索，Qwen-VL系列模型全球总下载量超过3200万次，是业界最受欢迎的多模态模型。

新的视觉知识解析能力不仅能准确识别万物，还能解析图像的布局结构及其中的文本、图表、图标等复杂内容，比如从一张App截图中就能分析出插图和可点按钮等元素，或从多种格式中提取发票中的核心信息并做结构化的推理输出。

视觉感知、解析及推理能力的增强，让大模型自动化完成任务、与真实世界进行复杂交互成为可能。甚至能够直接作为视觉智能体进行操作，而无需特定任务的微调，比如让模型直接操作电脑和手机，根据提示自动完成查询天气、订机票、下载插件等多步骤复杂任务。