多模态文档大模型mPLUG-DocOwl 徐海洋阿里巴巴通义实验室 演讲嘉宾 徐海洋 阿里巴巴通义实验室-高级算法专家 负 责 通 义 多 模 态 大 模 型mPLUG系 列 工 作,包 括 基 础 多 模 态 模 型mPLUG/mPLUG-2,多模态对话大模型mPLUG-Owl,多模态文档大模型mPLUG-DocOwl,多模态智能体Mobile-Agent等,其中mPLUG工作 在VQA榜 单 首 超 人 类 的 成 绩。在 国 际 顶 级 期 刊 和 会 议ICML/CVPR/ICCV/ACL/EMNLP/MM/TOIS/IJCAI/AAAI等 发 表 论 文40多 篇,并 担 任 多 个 顶 级 和 会 议AC/PC/Reviewer。主 导 参 与 开 源 项 目mPLUG,X-PLUG,AliceMind,DELTA。 1.多模态文档大模型背景2.mPLUG-DocOwl系列工作3.mPLUG-DocOwl开源实战4.总结与展望 目录CONTENTS 多模态文档大模型背景PART 01 多模态文档大模型背景 富含文字的图片(简称“文档图片”)在生活中无处不在! 多模态文档大模型背景 多模态文档大模型背景 一个通用的多模态大模型应该具备文档图片理解的能力,例如GPT4V 多模态文档大模型背景 多模态大模型模型(MLLM)主要关注于一般图片的对话和问答 InstructBLIP 多模态文档大模型背景 由于预训练中存在富含文字的图片,他们也初显一定的图片文字理解能力MLLM具备实现通用文档图片理解的潜力 多模态文档大模型挑战 多模态文档大模型背景PART 01 mPLUG-DocOwl mPLUG-DocOwl mPLUG-DocOwl •模型训练:训练任务 mPLUG-DocOwl •模型训练:训练任务 mPLUG-DocOwl •模型训练:训练数据 mPLUG-DocOwl •实验结果 mPLUG-DocOwl1.5 mPLUG-DocOwl1.5 mPLUG-DocOwl1.5 mPLUG-DocOwl1.5 mPLUG-DocOwl1.5 mPLUG-DocOwl1.5 mPLUG-DocOwl1.5 •模型训练 mPLUG-DocOwl1.5 •模型训练 mPLUG-DocOwl1.5 •模型训练 mPLUG-DocOwl1.5 mPLUG-DocOwl1.5 mPLUG-DocOwl1.5 mPLUG-DocOwl1.5 mPLUG-DocOwl1.5 mPLUG-DocOwl1.5 mPLUG-DocOwl1.5 mPLUG-DocOwl1.5 mPLUG-DocOwl1.5 TinyChart TinyChart TinyChart TinyChart TinyChart TinyChart mPLUG-PaperOwl mPLUG-PaperOwl mPLUG-PaperOwl mPLUG-PaperOwl mPLUG-PaperOwl mPLUG-DocOwl开源实战PART 03 mPLUG-DocOwl开源 mPLUG-DocOwlDemo 通义mPLUG多模态体系 通义mPLUG多模态体系 https://github.com/orgs/X-PLUG/repositories 通义mPLUG多模态体系 https://modelscope.cn/search?search=mplug 总结与展望PART 04 总结与展望 •多模态文档大模型展示了Promising效果,但仍然存在通用性、鲁棒性、效率等问题,仍然还有很多提升的空间;•针对高分辨率,多页,探索更高效的视觉编码,图文融合结构;•增加更多Domain数据,探索通用的、鲁棒的多模态文档大模型;•大小模型协同,能够结合OCR、Chart等专业小模型; THANKS