AI智能总结
演讲人:常扬 目 录 01RAG背景与问题 02文档解析技术方案 04实际场景产品实践 03向量化技术方案 RAG背景与问题01 RAG技术定位 大模型应用的四大问题 RAG(Retrieval Augmented Generation)检索增强生成技术,利用检索外部文档提升生成结果质量 LLM应用知识数据来源 RAG标准技术流程 RAG问题:一周快速出Demo,半年产品不好用 文档解析问题 LLM RAG产品如何快速达到可用、好用,开始增长? MVP最小可用产品->PMF产品满足市场需求 PMF:Product Market Fit产品和市场达到最佳契合点,产品满足市场的需求,令客户满意,这是创业成功的第一步,业务增长的起点。 大模型RAG项目落地关键点 用最好的模型确定产品有市场需求确定技术可以满足 避免仅考虑技术业务优先,价值第一AI产品最大失败原因 考虑产品壁垒用户/业务壁垒如何抵抗复制 理解技术边界避免过于乐观、悲观寻找适合技术的场景 深度理解业务用户需求是关键技术来服务业务 RAG本质问题细节 文档存在太多Corner Case 文档内容解析出错 召回结果排序困难 RAG优化目标一:快速、稳定、精准解析文档 大语言模型(LLM)驱动的检索增强生成(RAG)技术中确保能够从源文档中快速、精准地提取内容,对于提高最终输出的质量至关重要。 在实际工作场景中,非结构化数据远比结构化数据丰富。但如果这些海量数据不能被解析,其巨大价值将无法发掘,其中PDF文档尤为突出。 RAG优化目标二:高精度、高效率向量检索 大语言模型(LLM)驱动的检索增强生成(RAG)技术中嵌入式模型的作用是确保能够从源文档中快速、精准地提取内容。 高效的处理能力是实现快速响应用户查询的关键,识别并提取与用户查询高度相关的文档片段,从而生成更准确、更相关的输出。 研究方向:文档解析技术与向量化技术 TextIn通用文档解析 acge_text_embedding向量化模型 将任意格式、版式的文档(图片、PDF、Doc/Docx等)高效、精准解析为Markdown格式,开源版面解析评价基准,排名第一 在CMTEB文本嵌入基准上对6个任务的中文综合评估超越其他模型,排名第一 TextIn通用文档解析02 计算机视角下两种类型的文档 有标记文档 无标记文档 扫描文档图像 计算机视角下无标记的文档: 计算机视角下有标记的文档: #有标记文档MarkDown示例##第一部分###子标题|表格列1 |表格列2|表格列3||-------|-------|-------|正文:有标记的文档指的是可以直接用计算机处理,结构化文档 %PDF-1.04 0 obj <</Length 65>>stream 1. 0. 0. 1. 50. 700. cmBT /F0 36. Tf (Hello, World!) TjET endstreamendobj PDF文件格式 显示不受设备、软件或系统的影响 PDF文件:一系列显示打印指令的集合,非数据结构化格式。 PDF(Portable Document Format便携式文档格式),独立于应用程序、硬件和操作系统呈现文档的文件格式,能够完全保留原文档的格式。 非结构化文档、不具备可编辑性 文本的位置、字体、间距、缩放比例、页边距等所有属性在文件格式中限定死,让软件没有自由发挥的空间。 解析PDF文档的挑战、让计算机可以获得PDF信息 准确提取整个页面的布局,并将所有内容(包括表格、标题、文本段落和图像)转化为结构化数据形式。 MarkDown文件格式 MarkDown文件:关注内容而非打印格式,表示文档元素。 “优雅、简约、统一”表达多种形式的数据 被互联网世界接受,充斥在各种数据中 可以被大模型所理解 文档多版式示例 多栏的影响文档解析典型技术难点 复杂版式:双栏、跨页、三栏合并单元格识别表格内公式 元素遮盖重叠元素本身有多样性无线表格识别单行公式与行内公式 页眉形式1 4 6 文档解析库尚未解决的问题 基于规则的开源库 基于深度学习/大模型的开源库 UnstructuredLayout-parserPP-StructureV2PDF-Extract-Kitpix2textMinerUmarkerGptpdf PDF扫描件不支持无法支持全部版式文档多页可用性低阅读顺序无法还原文档解析精度较低速度慢不满足需求 pyPDF2PyMuPDFpdfminerpdfplumberpapermage TextIn文档解析 TextIn文档解析 解析更稳、识别更准、性能更快 电子档、扫描件 TextIn文档解析算法框架Pipeline TextIn版面分析算法框架 版面分析算法–物理版面分析与逻辑版面分析 检测模型的发展FasterRCNN/YOLO->DETR/DINO在产业落地时,综合考虑任务难度和推理速度,我们选用:单阶段的检测模型,更多关注数据和模型小规模调优 •物理版面分析-聚合侧重于视觉特征。主要任务是把相关性高的文字聚合到一个区域,比如一个段落等。 •物理版面分析-布局选用目标检测任务进行建模,使用基于回归的单阶段检测模型进行拟合,从而获得文档中各种各样的布局方式。 •逻辑版面分析侧重于语义特征。主要任务是把不同的文字块根据语义建模,比如通过语义的层次关系形成一个树状结构。 版面分析算法–物理版面分析 通过检测获得各个布局要素之后,我们可以建立文档的布局关系。例如,一个双栏的节(section)通常包括两个栏(column)。 版面分析算法–逻辑版面分析 算法核心:通过Transformer架构,预测旁系类型与父子类型 预测每个段落和上一个段落的关系,分为子标题、子段落、合并、旁系、主标题、表格标题如果是旁系类型,则再往上找父节点,并判断其层级关系,直到找到最终的父节点 最新研究方向–真实世界中更丰富布局的版面分析 TextIn开源文档解析效果测试基准及工具 TextIn文档解析可视化效果 TextIn文档解析工程性能 TextIn文档解析技术定量测试 向量化技术方案03 向量化Embedding技术原理 Embedding/嵌入/向量化将海量的文本数据转化为一个有方向有数值的列表(向量),利用计算机高效率计算文本相似性 RAG系统中向量模型的作用 1.对文档块(Documentschunk)进行向量化表示2.对问题(query)进行向量化表示,查询高文本相似度的文档块(chunk)召回3.文档块向量库实时动态更新,低成本高扩展4.数据向量化处理后保证了数据安全性 文本嵌入模型效果评测标准MTEB&C-MTEB 覆盖8类任务,58个数据集:文本分类,聚类,成对分类,重排序,检索,语义文本相似性,摘要、判别 应用中向量化Embedding Model的选择 结合业务选择合适的向量模型,MTEB/C-MTEB作为参考 acge_text_embedding模型技术特色 •与其他开源模型相比,acge模型较小,占用资源少;•模型输入文本长度为1024,满足绝大部分场景的需求•acge模型支持可变嵌入维度,让企业能够根据具体场景去合理分配资源。 acge_text_embedding高精度、高效率 Massive Text Embedding Benchmark (MTEB)中文榜单(C-MTEB)第一名的成绩(20240311-20240514) (1)对比学习技术,通过最小化正对之间的距离和最大化负对之间的距离来呈现文本语义表示(2)数据挖掘,构造多场景、数量庞大的数据集提升模型泛化能力,挑选高质量数据集加快模型收敛(3)多任务混合训练,多loss适配场景,适应各种下游任务(4)MRL训练,训练可变维度的嵌入,提高了处理速度,降低了存储需求(5)持续学习,改善引入新数据后模型灾难性遗忘问题 acge_text_embedding模型可变嵌入维度 俄罗斯套娃Matryoshka Representation Learning技术,让文本嵌入模型在推理时具备可变Embedding大小的能力,可以根据企业场景采用不同的计算和存储消耗。 实际场景产品实践04 开放域信息抽取产品介绍 【信息抽取任务】 需要开发人员有丰富的算法经验新样本如语句变化则将难以确保效果 从以下资讯文本/多文档/票据图像中抽取出关键信息 翔鹭钨业(9.500,0.12,1.28%):股东众达投资854.68万股股份解 Prompt提示词 请从如下文本中判断出事件类型和相应的事件要素,结果按照results_style形式进行呈现:翔鹭钨业(9.500,0.12,1.28%):股东众达投资854.68万股来源:每日经济新闻每经AI快讯,翔鹭钨业2,... •普通员工会写提示词prompt即可•模型对语句变化后的自适应性强 开放域信息抽取产品模式 三种抽取模式 •智能解读业务文件,完成非结构化的关键信息提取,提高阅读效率,挖掘文档价值 分析师知识问答—场景及价值 企业财报(年报、季报、半年报) 知识库信息检索 通过自然语言问答,精准检索知识库中相关内容; 金融文档知识库 多文档问答 行业/公司研报(行业分析、个股深度分析) 支持多源信息检索及对比,洞察潜在趋势; •专注有效信息阅读•提高案头分析效率•分析师个人投研助手 信息来源可靠 有效规避大模型幻觉,完整展示真实可靠来源; 其他公告(招股说明书、业绩预告、股权变动等) 关键内容总结 个人知识库 提炼文档重点内容,提高信息筛选效率; 非公开文档(专家调研报告、会议纪要等) 投研知识管理 重点内容问询、标记、收藏,构建投研知识库; 分析师知识问答产品效果 分析师问答产品系统架构设计 RAG应用目标:可用、好用的技术与产品 理解技术边界,深度理解业务,打造产品壁垒,用最好的模型,避免仅考虑技术 单击此处编辑母版标题样式 THANKS 智能未来,探索AI无限可能Intelligent Future, Exploring theBoundless Possibilities of AI