拥有准确地解析图像内容也意味着,大模型无需微调就可变身为一个能操控手机和电脑的AI视觉智能体,其可以完成指定朋友送祝福、电脑修图、手机订票等多步骤复杂操作。
通义团队此前曾开源Qwen-VL及Qwen2-VL两代模型,支持开发者在手机、汽车、教育、金融、天文等不同场景进行AI探索,Qwen-VL系列模型全球总下载量超过3200万次,是业界最受欢迎的多模态模型。
新的视觉知识解析能力不仅能准确识别万物,还能解析图像的布局结构及其中的文本、图表、图标等复杂内容,比如从一张App截图中就能分析出插图和可点按钮等元素,或从多种格式中提取发票中的核心信息并做结构化的推理输出。
视觉感知、解析及推理能力的增强,让大模型自动化完成任务、与真实世界进行复杂交互成为可能。甚至能够直接作为视觉智能体进行操作,而无需特定任务的微调,比如让模型直接操作电脑和手机,根据提示自动完成查询天气、订机票、下载插件等多步骤复杂任务。
文章版权声明:除非注明,否则均为慢乐懂生活原创文章,转载或复制请以超链接形式并注明出处。