行业研究公司研究宏观策略财报招股书会议纪要 Token 低空经济十五五 AIGC 大模型

腾讯云智能体开发平台：⾮结构化⽂档精准解析

2025-06-11 腾讯梅斌

腾讯云智能体开发平台非结构化文档精准解析

核心观点与能力介绍

文档解析原子能力：基于OCR解析大模型，支持论文、说明书、试卷、PPT等多种场景复杂版面的解析。
传统OCR技术局限：识别精度低、元素易丢失。
文档解析优势：支持PDF、PPT、EXCEL、DOCX、URL、HTML等多种文件格式，处理多种版式（双栏、单双栏混排、三栏等），识别图文、公式、段落、表格、页眉、页脚等版面元素，提取文档元信息并按阅读顺序排序。

复杂文档解析能力

复杂版面解析：针对图文混排、无明显边界的图形组合、易重叠错位的文档，通过定位版面元素位置、类型、顺序，识别内容并组装成Markdown格式输出，准确率提升约3x%。
多阶段方案：阶段①定位版面元素；阶段②识别元素内容；阶段③整合结果为Markdown。
多模态大模型：支持文档中的多种元素类型进行解析，效果处于行业领先地位。

场景说明与案例

文档阅读理解：支持版面元素类型、版面排序、文字识别、多语种识别、公式识别、表格识别等。
- 示例：图3位置识别、监控拍摄时间提取、收听目的理解。
文档解析优势：OCR&结构化全文识别、结构化信息提取。
典型案例：
- 头部大模型公司：复杂公式解析成功率提升至9x%。
- LLM大模型底座：利用腾讯云文档解析能力生成丰富结构化语料，优化预训练。

MLLM原子能力

MLLM多模态模型：对数据图、架构图、思维导图等图片进行精调，支持图片解读。
文档切分大模型：业内首个语义切分大模型，采用多级文档切分方式，保障语义完整性，端到端检索准确度大幅提升。
- 切分效果：一级片段层次准确率8x%，召回率9x%；二级片段层次准确率9x%，召回率8x%。

研究结论

腾讯云文档解析能力在复杂版面处理、公式识别、结构化语料生成等方面表现优异，支持多场景应用，效果行业领先。
MLLM和文档切分大模型进一步提升了文档处理和理解的语义完整性及准确率。

腾讯云智能体开发平台⾮结构化⽂档精准解析主讲人：韦昭南 01 ⽂档解析原⼦能⼒介绍与实战应⽤OCR⼤模型对⽂档进⾏预处理把企业五花⼋门的知识库喂给⼤模型，没那么简单！少线表格无线表格有线表格复杂的表格结构横向多栏复杂排版的阅读顺序纵向多栏图/图注群组表/表注群组跨栏段落跨图段落跨表段落图表文环绕复杂的⼦元素识别段落内图像表格内图像段落内公式表格内公式传统OCR技术局限：识别精度低、元素易丢失⽂档解析基于OCR解析⼤模型，⽀持论⽂，说明书，试卷，PPT等多种场景复杂版⾯的解析⽂档输⼊ PDF，PPT，EXCEL，DOCX，URL，HTML等多种⽂件格式 多种版式：双栏，单双栏混排，三栏等 图⽂，公式，段落，表格，页眉，页脚等多种版⾯元素 论⽂，书籍，试卷等多种使⽤场景的内容解析输出 ⽂字，图⽚，表格，公式等⽂档元信息提取 ⽂档元信息按照阅读顺序排序，归类 序号，坐标，章节树状结构返回，⽅便灵活扩展 markdown json html DocLM解析MLLM ⼯程解析复杂的图⽂混排⽂档，常常包含⽆明显边界的图形组合，且易重叠，错误，解析难度⾼⽂档解析能准确定位版⾯元素位置、类型、顺序，识别不同元素内容，最后组装成markdown格式输出基于OCR解析⼤模型，对图⽂混排复杂⽂档解析准确率提升约3x% 图⽚解析遗漏阅读顺序改变图、表等关键元素准确识别阅读顺序正确源⽂⽚段难点：图⽂并茂、排版复杂常常包含⽆明显边界的组合图形，且易重叠、错位，极⼤影响模型阅读理解准确率传统解析效果原理：基于⽂档元素及位置信息，“定制化”进⾏重组和排版问题：图⽚解析遗漏、阅读顺序改变 OCR⼤模型解析效果原理：将复杂⽂档图⽚表格转换成可编辑的markdown⽂本问题：图表等关键元素准确识别、阅读顺序正确基于多阶段⽅案： 阶段①定位版⾯元素的位置、类型、顺序， 阶段②识别不同类型元素的内容， 阶段③将各元素识别结果整合为Markdown。场景描述⽰例图⽰例问题⽰例答案数据图表理解⽀持对折线图、饼状图、柱状图、单/多表格等进⾏以下任务：K-V问答、Chart2Table、数值计算、指定颜⾊/位置取值将6点到18点的数据制作成表格 |时间(⼩时)|拜访账号数|拜访次数||---|---|---||6|13|19||7|90|123||8|228|366||9|311|581||10|307|566||11|241|432||12|269|519||13|346|347||14|353|712||15|353|678||16||||17||||18|16|26| 混合图表理解⽀持对图上存在多类数据图表进⾏综合理解，输出答案，主要任务有：常规提问、对⽐性提问第三季度的收⼊⽀出和利润分别是多少第三季度的收⼊是215万元，⽀出是47万元，利润是168万元。⽂字信息提取结构化信息提取（包括门头、曲⽂等）监控拍摄时间是？监控拍摄时间是2017年12⽉26⽇，10:30。场景描述示例图示例问题示例答案文档阅读理解版面元素类型、版面排序、文字识别相关、多语种识别、公式识别、表格识别图3所在的位置是图3显示了一个相机的顶部界面，重点展示了ISO设置屏幕。具体位置解释如下：1.**图3在相机顶部的右侧位置**：显示一个LCD面板，上面有ISO数值。2.**镜头靠后的部分**：可以看到相机手柄的一部分，表现出用户面朝相机顶部的视角。 3.**ISO按钮的旁边**：在这个界面中，ISO按键已经被按下，显示屏上正在闪烁ISO值（正被调整）。通过图3的指示，可以看到如何调整ISO，通过上下推杠杆选择不同ISO数值。 OCR&结构化全文识别、结构化信息提取收听的目的是什么收听的目的是听音乐、娱乐以及获取新闻信息。例1 例2 原文档原方案解析结果腾讯云方案解析结果某头部⼤模型公司，主要产品为⼀款长⽂本处理能⼒极强的AI对话类产品，在⾦融，法律科研等领域有⼤量的应⽤在⽤户上传的⽂档中包含⼤量的数学公式和表达式，公式符号复杂多样，布局不规则，对⽂档解析能⼒要求很⾼采⽤腾讯云⽂档解析⽅案，复杂公式解析成功率达到9x% 某LLM⼤模型底座，利⽤腾讯云⽂档解析能⼒⽣成丰富的结构化语料，帮助LLM模型底座预训练优化⽂档类型多样，其中的复杂图⽂样式，公式类型数据较多，依赖⽂档解析能识别并解析各类⽂档元素例1 例2 例3 例4 原文档解析结果文档切分大模型 业内⾸个语义切分⼤模型，保障⽂档切分⽚段的语义完整性 采⽤多级⽂档切分⽅式，将⽂档切分成适合检索和⼤模型问答的⽚段 传统切分⽅式⽂档类型受限，缺乏通⽤性，且容易截断语义，模型切分⽅式可有效解决该类型问题，端到端检索准确度⼤幅提升 输⼊：各种问答；输出：json格式，包括⼆级⽚段以及⼀级⽚段多级切分准确率和召回率指标：层次准确率召回率⼀级⽚段 8x% 9x% ⼆级⽚段 9x% 8x% ⽬前仅⽀持解析+拆分整体接⼝，输⼊⽂件，输出解析结果和拆分结果⼀级标题⼆级标题⼀级标题⼆级标题原始⽂档切分效果 02 MLLM原⼦能⼒介绍与实战应⽤多模态⼤模型对图⽚进⾏理解 mllm多模态模型 对数据图、架构图、思维导图等图⽚进⾏精调，能够⽀持图⽚解读 mllm多模态模型 对数据图、架构图、思维导图等图⽚进⾏精调，能够⽀持图⽚解读 THANKS

点击免费查看完整报告

腾讯云智能体开发平台：⾮结构化⽂档精准解析

腾讯云智能体开发平台非结构化文档精准解析

核心观点与能力介绍

复杂文档解析能力

场景说明与案例

MLLM原子能力

研究结论

你可能感兴趣

腾讯云智能体开发平台：结合企业知识数据，⾼效搭建企业级智能体

智析异动·洞见先机——腾讯云智能体开发平台如何赋能市场异动分析？

腾讯云智能体开发平台产品手册

腾讯云智能体开发平台企业级ADP Claw最佳实践与教程

【电报解读】腾讯云面向全球发布智能体开发平台3.0！机构称2025年有望成为AI Agent商业爆发元年，这家公司已和腾讯云等通用大模型企业达成合作，官方应用已接入腾讯元宝等大模型20250918

AI 产业跟踪：腾讯云发布智能体开发平台3.0，Ring-mini-2.0高性能推理型MoE模型发布

腾讯云智能体开发平台企业级skill 最佳实践与教程

1346腾讯云智能体开发平台涨价部分模型结束免费公测

【腾讯云智能体开发平台】OpenClaw 企业级 Skill

【财联社早知道】荣耀Magic V5成首个搭载阿里通义千问和Agent生态的AI手机，机构称AI智能体持续演进，这家公司拥有智能体应用开发平台