视觉语言模型来了:支持中英文等多种语言

  • 来源:中关村在线
  • 时间:2023-08-28 17:12:34


(资料图片仅供参考)

阿里云今日发布了大规模视觉语言模型Qwen-VL,并已在ModeScope平台上开源。此前,阿里云已经开源了通用模型Qwen-7B和对话模型Qwen-7B-Chat。 据介绍,Qwen-VL是一款支持中英文等多种语言的视觉语言模型。与以往的视觉语言模型相比,Qwen-VL不仅具备图文识别、描述、问答和对话的基本能力,还新增了视觉定位和图像中文字理解等功能。 Qwen-VL以Qwen-7B为基础,引入视觉编码器,使模型支持视觉信号输入。该模型支持的图像输入分辨率为448,而此前开源的LVLM模型通常仅支持224分辨率。 官方表示,Qwen-VL可用于知识问答、图像标题生成、图像问答、文档问答、细粒度视觉定位等场景。在主流的多模态任务评测和多模态聊天能力评测中,Qwen-VL的表现远超同等规模的通用模型。 在Qwen-VL的基础上,通义千问团队使用对齐机制,打造了基于LLM的视觉AI助手Qwen-VL-Chat,以便开发者快速搭建具备多模态能力的对话应用。 通义千问团队还表示,为了测试模型的多模态对话能力,他们构建了一套基于GPT-4打分机制的测试集“试金石”。在对Qwen-VL-Chat及其他模型进行对比测试后,Qwen-VL-Chat在中英文的对齐评测中均取得了开源LVLM最好的结果。

关键词:

精彩推送

关于002135的一些信息
雪佛兰 2023/08/28
方便老人的社区餐厅
产业 2023/08/28
木工是做什么的
中医 2023/08/28
强奸后因证据不足被无罪释放
应用程序 2023/08/28
落花三首(关于落花三首简述)
应用程序 2023/08/28

资讯播报

恭喜生孩子的诗句
文荟 2023/08/28
梦见牛顶人什么预兆
悦读 2023/08/28
咋又开始抢盐了?
体育 2023/08/28
用高科技留存影像记忆
双创 2023/08/28
还不起网贷了怎么解决
家居 2023/08/28
发了调解书还能上诉吗
探索 2023/08/28