效果超越LLaVA&MiniGPT-4，阿里开源多模态版ChatGPT「mPLUG-Owl」

chatgpt2023-05-15 08:00:57501

导读

本文转载自公众号我爱计算机视觉，原文作者为CV君，原文标题为《图文理解能力强大！多模态对话生成模型：mPLUG-Owl，已开源！》，如需转载请与原作者联系。

miniGPT-4的热度至今未减，距离LLaVA的推出也不到半个月，而新的看图聊天模型已经问世了。今天要介绍的模型是一款类似于miniGPT-4和LLaVA的多模态对话生成模型，它的名字叫mPLUG-Owl。

论文链接：https://arxiv.org/abs/2304.14178
项目链接：https://github.com/X-PLUG/mPLUG-Owl
在线demo：https://modelscope.cn/studios/damo/mPLUG-Owl/summary

mPLUG-Owl展现出强大的图文理解能力：

以下是本文作者的试用结果：

本文贡献如下：

提出一种新的模块化的训练多模态大模型的方式
提出测评集OwlEval，以便测试多模态模型在视觉相关任务上的能力
开源模型代码，demo代码以及模型权重文件，方便研究者进行进一步的研究。

01

mPLUG-Owl

模型架构

本文提出了 mPLUG-Owl，其整体架构如图2所示。它由视觉基础模型、视觉抽象模块以及预训练语言模型组成。视觉抽象模块将较长的、细粒度的图像特征概括为少量可学习的 Token，从而实现对视觉信息的高效建模。生成的视觉 Token 与文本查询一起输入到语言模型中，以生成相应的回复。

训练策略

如图1所示，目前存在三种主要的训练策略来训练端到端的多模态LLM模型。这些策略分别是：

在预训练和指令微调阶段冻结视觉模块和语言模块，调整有限的参数，如MiniGPT4。
冻结视觉模块，训练语言模块，如Kosmos-1。
在指令微调阶段冻结视觉模块，训练语言模块，如LLaVA。

然而，这些模型都冻结了视觉模块的参数调整，从而限制了不同模态之间的对齐。此外，它们缺乏单模态和多模态数据的共同训练，难以有效地激发大型模型的各种潜能。

为了克服这些限制，mPLUG-Owl采用了一种不同的训练策略。首先，其使用多模态数据训练视觉模块，并冻结语言模块。这样可以让视觉特征贴合语言特征。然后，其使用多模态和单模态数据联合调整语言模块的LoRA参数，同时冻结视觉模块。这样，模型可以学习多样化的单模态和多模态指令，同时具备单模态和多模态多轮对话能力。

02

实验

定量分析

如图3所示，本文在构建的多模态测评集 OwlEval 上对 mPLUG-Owl 进行了人工评估。评价结果分为四个等级 A-D，代表对应的生成质量依次递减。从测评结果中可以看出，mPLUG-Owl 取得了最佳的结果。

为了分别探究 mPLUG-Owl 在单轮对话和多轮对话上的性能，本文还从 OwlEval 中单独抽出了一些单轮对话和一些多轮对话，分别进行人工评估。结果如图4所示。可以发现，mPLUG-Owl 具有较强的多轮对话能力。

消融实验

为了探究训练策略与指令数据的使用对模型结果的影响，本文还展示了消融实验的结果，如表2所示。

此外，本文还发现了一个有趣的现象：多模态数据的学习可以提高模型的文本单模态能力。正如表3所示，使用ChatGPT对生成结果进行评分发现，仅调整LoRA参数的mPLUG-Owl在纯文本生成能力上击败了全参数调整的Alpaca。

定性分析

从图6中可以发现，mPLUG-Owl有较强的多轮对话能力。

从图7中可以发现，mPLUG-Owl还具有很强的推理能力。

尽管mPLUG-Owl已具有较强的图文理解能力，但和GPT-4相比仍有一些差距。如图8所示，mPLUG-Owl虽然已经正确理解了笑点，但错误地将VGA插头识别为了USB插头。

图9展示了一些额外的笑话解释例子。

如图10所示，虽然在训练阶段并没有进行多图关联数据的训练。mPLUG-Owl展现出了一定的多图关联能力。

如图11所示，尽管mPLUG-Owl在训练阶段仅接触了英文数据，但其展现出了有趣的多语言能力。这可能是因为mPLUG-Owl中的语言模块采用了支持多语言的LLaMa，从而出现了这一现象。

尽管mPLUG-Owl没有在带有标注的文档数据上进行训练，但其仍然展现出了一定的文字识别和文档理解能力。测试结果如图12所示。

如图13、14所示，mPLUG-Owl在多模态的开放式结尾续写方面展现出了较强的能力。以下是更多有趣的例子：

END

公开课预告

5月18日晚7点，「阿里达摩院大模型公开课」第3讲上线开讲，阿里巴巴达摩院算法专家、ChatPLUG 核心贡献者田俊峰和阿里巴巴达摩院算法工程师、mPLUG 核心贡献者叶晴昊将参与主讲。两位主讲人将对ChatPLUG 和 mPLUG-Owl 背后的技术细节进行深入剖析。扫码报名！

你的每一个“在看”，我都当成了喜欢

▼

本文链接：https://chatgpt.wenangpt.com/chatgpt/135.html

chatgpt相关文章

ChatGPT母公司OpenAI是什么？新手必知的5个关键点
OpenAI是ChatGPT的母公司，作为全球领先的人工智能研究机构，其核心目标是以安全可靠的方式推动通用人工智能（AGI）发展，新手需掌握的5个关键点包括：1）OpenAI成立于2015年，由马斯克...
GTP资讯2025-08-171524OpenAI ChatGPT 人工智能 chatgpt母公司
ChatGPT上市了吗？全面解析ChatGPT的商业化进程
** ，ChatGPT是由OpenAI开发的人工智能对话模型，自发布以来备受关注，OpenAI尚未将ChatGPT作为独立产品直接上市，但其商业化进程正在加速，OpenAI通过API接口、企业合作以...
GTP资讯2025-08-161493ChatGPT 上市商业化 chatgpt上市了吗
ChatGPT编程语言指南，从零开始学习AI辅助编程
** ，《ChatGPT编程语言指南：从零开始学习AI辅助编程》是一本面向初学者的实用教程，旨在帮助读者利用ChatGPT等AI工具高效学习编程，本书从基础概念入手，逐步介绍如何通过自然语言与AI交...
GTP资讯2025-08-161371ChatGPT 编程语言 AI辅助编程 chatgpt编程语言
ChatGPT免费试用指南，新手必看的实用技巧
**ChatGPT免费试用指南：新手必看的实用技巧** ，ChatGPT作为一款强大的AI对话工具，为新手用户提供了免费试用机会，注册流程简单，只需通过邮箱或第三方账号登录即可开始体验，初次使用时，...
GTP资讯2025-08-161375ChatGPT 免费试用新手技巧 chatgpt免费试用
ChatGPT代理网站使用指南，安全高效访问AI助手的完整教程
** ，ChatGPT代理网站为用户提供了便捷、高效的访问方式，帮助突破网络限制，安全使用AI助手，本指南详细介绍了代理网站的筛选标准，推荐了稳定可靠的平台，并提供了访问步骤：首先选择信誉良好的代理...
GTP资讯2025-08-151421ChatGPT代理安全访问使用指南 chatgpt代理网站