您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。 [腾讯]:腾讯云智能体开发平台:⾮结构化⽂档精准解析 - 发现报告

腾讯云智能体开发平台:⾮结构化⽂档精准解析

2025-06-11 腾讯 梅斌
报告封面

腾讯云智能体开发平台 ⾮结构化⽂档精准解析 主讲人: 韦昭南 01 ⽂档解析原⼦能⼒介绍与实战 应⽤OCR⼤模型对⽂档进⾏预处理 把企业五花⼋门的知识库喂给⼤模型,没那么简单! 少线表格 无线表格 有线表格 复杂的表格结构 横向多栏 复杂排版的阅读顺序 纵向多栏 图/图注群组 表/表注群组 跨栏段落 跨图段落 跨表段落 图表文环绕 复杂的⼦元素识别 段落内图像表格内图像段落内公式表格内公式 传统OCR技术局限:识别精度低、元素易丢失 ⽂档解析 基于OCR解析⼤模型,⽀持论⽂,说明书,试卷,PPT等多种场景复杂版⾯的解析 ⽂档输⼊ PDF,PPT,EXCEL,DOCX,URL,HTML等多种 ⽂件格式 多种版式:双栏,单双栏混排,三栏等 图⽂,公式,段落,表格,页眉,页脚等多种版 ⾯元素 论⽂,书籍,试卷等多种使⽤场景的内容 解析输出 ⽂字,图⽚,表格,公式等⽂档元信息提取 ⽂档元信息按照阅读顺序排序,归类 序号,坐标,章节树状结构返回,⽅便灵活扩展 markdown json html DocLM解析MLLM ⼯程解析 复杂的图⽂混排⽂档,常常包含⽆明显边界的图形组合,且易重叠,错误,解析难度⾼ ⽂档解析能准确定位版⾯元素位置、类型、顺序,识别不同元素内容,最后组装成markdown格式输出 基于OCR解析⼤模型,对图⽂混排复杂⽂档解析准确率提升约3x% 图⽚解析遗漏 阅读顺序改变 图、表等关键元素准确识别 阅读顺序正确 源⽂⽚段 难点:图⽂并茂、排版复杂 常常包含⽆明显边界的组合图形,且易重叠、错位,极⼤影响模型阅读理解准确率 传统解析效果 原理:基于⽂档元素及位置信息,“定制化”进⾏重组和排版 问题:图⽚解析遗漏、阅读顺序改变 OCR⼤模型解析效果 原理:将复杂⽂档图⽚表格转换成可编辑的markdown⽂本 问题:图表等关键元素准确识别、阅读顺序正确 基于多阶段⽅案: 阶段①定位版⾯元素的位置、类型、顺序, 阶段②识别不同类型元素的内容, 阶段③将各元素识别结果整合为Markdown。 场景 描述 ⽰例图 ⽰例问题 ⽰例答案 数据图表理解 ⽀持对折线图、饼状图、柱状图、单/多表格等进⾏以下任务:K-V问答、Chart2Table、数值计算、指定颜⾊/位置取值 将6点到18点的数据制作成表格 |时间(⼩时)|拜访账号数|拜访次数||---|---|---||6|13|19||7|90|123||8|228|366||9|311|581||10|307|566||11|241|432||12|269|519||13|346|347||14|353|712||15|353|678||16||||17||||18|16|26| 混合图表理解 ⽀持对图上存在多类数据图表进⾏综合理解,输出答案,主要任务有:常规提问、对⽐性提问 第三季度的收⼊⽀出和利润分别是多少 第三季度的收⼊是215万元,⽀出是47万元,利润是168万元。 ⽂字信息提取 结构化信息提取(包括门头、曲⽂等) 监控拍摄时间是? 监控拍摄时间是2017年12⽉26⽇,10:30。 场景 描述 示例图 示例问题 示例答案 文档阅读理解 版面元素类型、版面排序、文字识别相关、多语种识别、公式识别、表格识别 图3所在的位置是 图3显示了一个相机的顶部界面,重点展示了ISO设置屏幕。具体位置解释如下:1.**图3在相机顶部的右侧位置**:显示一个LCD面板,上面有ISO数值。2.**镜头靠后的部分**:可以看到相机手柄的一部分,表现出用户面朝相机顶部的视角。 3.**ISO按钮的旁边**:在这个界 面中,ISO按键已经被按下,显示屏上正在闪烁ISO值(正被调整)。通过图3的指示,可以看到如何调整ISO,通过上下推杠杆选择不同ISO数值。 OCR&结构化 全文识别、结构化信息提取 收听的目的是什么 收听的目的是听音乐、娱乐以及获取新闻信息。 例1 例2 原文档 原方案解析结果 腾讯云方案解析结果 某头部⼤模型公司,主要产品为⼀款长⽂本处理能⼒极强的AI对话类产品,在⾦融,法律科研等领域有⼤量的应⽤在⽤户上传的⽂档中包含⼤量的数学公式和表达式,公式符号复杂多样,布局不规则,对⽂档解析能⼒要求很⾼ 采⽤腾讯云⽂档解析⽅案,复杂公式解析成功率达到9x% 某LLM⼤模型底座,利⽤腾讯云⽂档解析能⼒⽣成丰富的结构化语料,帮助LLM模型底座预训练优化 ⽂档类型多样,其中的复杂图⽂样式,公式类型数据较多,依赖⽂档解析能识别并解析各类⽂档元素 例1 例2 例3 例4 原文档解析结果 文档切分大模型 业内⾸个语义切分⼤模型,保障⽂档切分⽚段的语义完整性 采⽤多级⽂档切分⽅式,将⽂档切分成适合检索和⼤模型问答的⽚段 传统切分⽅式⽂档类型受限,缺乏通⽤性,且容易截断语义,模型切分⽅式可有效解决该类型问题,端到端检索准确度⼤幅提升 输⼊:各种问答;输出:json格式,包括⼆级⽚段以及⼀级⽚段 多级切分准确率和召回率指标: 层次 准确率 召回率 ⼀级⽚段 8x% 9x% ⼆级⽚段 9x% 8x% ⽬前仅⽀持解析+拆分整体接⼝,输⼊⽂件,输出解析结果和拆分结果 ⼀级标题 ⼆级标题 ⼀级标题 ⼆级标题 原始⽂档切分效果 02 MLLM原⼦能⼒介绍与实战 应⽤多模态⼤模型对图⽚进⾏理解 mllm多模态模型 对数据图、架构图、思维导图等图⽚进⾏精调,能够⽀持图⽚解读 mllm多模态模型 对数据图、架构图、思维导图等图⽚进⾏精调,能够⽀持图⽚解读 THANKS