行业研究公司研究宏观策略财报招股书会议纪要 Token 低空经济十五五 AIGC 大模型

徐海洋-多模态文档大模型mPLUG-DocOwl

文化传媒 2024-11-17 2024AI研发数字峰会AiDD北京站 Fanfan(关放）

多模态文档大模型mPLUG-DocOwl

多模态文档大模型背景

富含文字的图片（文档图片）在生活中广泛存在，通用多模态大模型应具备文档图片理解能力，如GPT-4V。
现有多模态大模型（MLLM）如mPLUG-Owl、LLaVA、InstructBLIP等虽主要关注一般图片，但因预训练中包含文档图片，已初显一定的图片文字理解能力。
多模态文档大模型面临挑战，需提升通用性、鲁棒性和效率。

mPLUG-DocOwl系列工作

模型结构：采用形状适应的切图模块，同时考虑形状和大小进行grid选择，每个子图记录在原图中的位置。
模型训练：
- 训练任务包括文档问答、视觉问答、文档摘要等。
- 训练数据涵盖TinyChart、mPLUG-PaperOwl等多领域数据集。
实验结果：mPLUG-DocOwl在多个基准测试中表现优异，1.5版本展现出强大的文档理解能力。

mPLUG-DocOwl开源实战

mPLUG-DocOwl已开源，提供Demo和Demo界面。
通义mPLUG多模态体系包含多个开源项目，如X-PLUG、AliceMind、DELTA等，可通过GitHub和ModelScope访问。

总结与展望

多模态文档大模型虽展示出良好效果，但仍需解决通用性、鲁棒性和效率问题。
未来研究方向包括：
- 探索更高效的视觉编码和图文融合结构，以处理高分辨率、多页文档。
- 增加更多领域数据，构建通用且鲁棒的多模态文档大模型。
- 结合OCR、Chart等专业小模型，实现大小模型协同。

多模态文档大模型mPLUG-DocOwl 徐海洋阿里巴巴通义实验室演讲嘉宾徐海洋阿里巴巴通义实验室-高级算法专家负责通义多模态大模型mPLUG系列工作，包括基础多模态模型mPLUG/mPLUG-2，多模态对话大模型mPLUG-Owl，多模态文档大模型mPLUG-DocOwl，多模态智能体Mobile-Agent等，其中mPLUG工作在VQA榜单首超人类的成绩。在国际顶级期刊和会议ICML/CVPR/ICCV/ACL/EMNLP/MM/TOIS/IJCAI/AAAI等发表论文40多篇，并担任多个顶级和会议AC/PC/Reviewer。主导参与开源项目mPLUG，X-PLUG，AliceMind，DELTA。 1.多模态文档大模型背景2.mPLUG-DocOwl系列工作3.mPLUG-DocOwl开源实战4.总结与展望目录CONTENTS 多模态文档大模型背景PART 01 多模态文档大模型背景富含文字的图片（简称“文档图片”）在生活中无处不在！多模态文档大模型背景多模态文档大模型背景一个通用的多模态大模型应该具备文档图片理解的能力，例如GPT4V 多模态文档大模型背景多模态大模型模型（MLLM）主要关注于一般图片的对话和问答 InstructBLIP 多模态文档大模型背景由于预训练中存在富含文字的图片，他们也初显一定的图片文字理解能力MLLM具备实现通用文档图片理解的潜力多模态文档大模型挑战多模态文档大模型背景PART 01 mPLUG-DocOwl mPLUG-DocOwl mPLUG-DocOwl •模型训练:训练任务 mPLUG-DocOwl •模型训练:训练任务 mPLUG-DocOwl •模型训练:训练数据 mPLUG-DocOwl •实验结果 mPLUG-DocOwl1.5 mPLUG-DocOwl1.5 mPLUG-DocOwl1.5 mPLUG-DocOwl1.5 mPLUG-DocOwl1.5 mPLUG-DocOwl1.5 mPLUG-DocOwl1.5 •模型训练 mPLUG-DocOwl1.5 •模型训练 mPLUG-DocOwl1.5 •模型训练 mPLUG-DocOwl1.5 mPLUG-DocOwl1.5 mPLUG-DocOwl1.5 mPLUG-DocOwl1.5 mPLUG-DocOwl1.5 mPLUG-DocOwl1.5 mPLUG-DocOwl1.5 mPLUG-DocOwl1.5 mPLUG-DocOwl1.5 TinyChart TinyChart TinyChart TinyChart TinyChart TinyChart mPLUG-PaperOwl mPLUG-PaperOwl mPLUG-PaperOwl mPLUG-PaperOwl mPLUG-PaperOwl mPLUG-DocOwl开源实战PART 03 mPLUG-DocOwl开源 mPLUG-DocOwlDemo 通义mPLUG多模态体系通义mPLUG多模态体系 https://github.com/orgs/X-PLUG/repositories 通义mPLUG多模态体系 https://modelscope.cn/search?search=mplug 总结与展望PART 04 总结与展望 •多模态文档大模型展示了Promising效果，但仍然存在通用性、鲁棒性、效率等问题，仍然还有很多提升的空间；•针对高分辨率，多页，探索更高效的视觉编码，图文融合结构；•增加更多Domain数据，探索通用的、鲁棒的多模态文档大模型；•大小模型协同，能够结合OCR、Chart等专业小模型； THANKS

点击免费查看完整报告

徐海洋-多模态文档大模型mPLUG-DocOwl

多模态文档大模型mPLUG-DocOwl

多模态文档大模型背景

mPLUG-DocOwl系列工作

mPLUG-DocOwl开源实战

总结与展望

你可能感兴趣

常扬-文档解析技术加速大模型训练与应用

Textln文档解析与向量化技术加速大模型RAG应用落地

阿里-徐志远-基于Multi-Agent框架的金融大模型应用实践

【财联社早知道】谷歌Gemini AI新计划曝光，多模态不断突破或推动AI应用打开商业化空间，这家公司的多媒体大模型涵盖语言、音频、图像、视频等多模态能力

产业观察28期：【数字经济周报】谷歌发布原生多模态大模型Gemini

【财联社早知道】华为申请AI模型处理专利，以提高AI模型在存储和传输方面的机密性，这家公司参股企业是业界领先的多模态AI行业大模型与算法服务提供商；这家公司已获得腾讯新“游元梦之星 IP授权

传媒行业重大事项点评：Pika1.0实机演示效果惊艳，谷歌大模型Gemini发布，重视多模态AI产业链机会

计算机行业专题报告：大模型“幻觉”症结有望逐步化解，多模态加速商业化

【点金互动易】AI玩具+AI眼镜+大模型，研发包括AI毛绒玩具在内的两款AI硬件产品，联合发布AI智能眼镜，这家公司将携手搭建A-I多模态能力框架

国内外大模型加速迭代，关注 AI 多模态应用及 AI Agent 进展

徐海洋-多模态文档大模型mPLUG-DocOwl

你可能感兴趣

常扬-文档解析技术加速大模型训练与应用

Textln文档解析与向量化技术加速大模型RAG应用落地

阿里-徐志远-基于Multi-Agent框架的金融大模型应用实践

【财联社早知道】谷歌Gemini AI新计划曝光，多模态不断突破或推动AI应用打开商业化空间，这家公司的多媒体大模型涵盖语言、音频、图像、视频等多模态能力

产业观察28期：【数字经济周报】谷歌发布原生多模态大模型Gemini

【财联社早知道】华为申请AI模型处理专利，以提高AI模型在存储和传输方面的机密性，这家公司参股企业是业界领先的多模态AI行业大模型与算法服务提供商；这家公司已获得腾讯新“游 元梦之星 IP授权

传媒行业重大事项点评：Pika1.0实机演示效果惊艳，谷歌大模型Gemini发布，重视多模态AI产业链机会

计算机行业专题报告：大模型“幻觉”症结有望逐步化解，多模态加速商业化

【点金互动易】AI玩具+AI眼镜+大模型，研发包括AI毛绒玩具在内的两款AI硬件产品，联合发布AI智能眼镜，这家公司将携手搭建A-I多模态能力框架

国内外大模型加速迭代，关注 AI 多模态应用及 AI Agent 进展

【财联社早知道】华为申请AI模型处理专利，以提高AI模型在存储和传输方面的机密性，这家公司参股企业是业界领先的多模态AI行业大模型与算法服务提供商；这家公司已获得腾讯新“游元梦之星 IP授权