您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。 [腾讯]:OCR大模型技术演进与场景实践 - 发现报告

OCR大模型技术演进与场景实践

2025-06-12 腾讯 秋穆
报告封面

在各行业加速智能化转型的进程中,OCR技术(即光学字符识别,一种将图像中文字转化为可编辑文本的AI技术,在文档处理、办公自动化、交通出行、教育、医疗、金融等领域应用广泛。)一直扮演着重要的角色。正所谓“金无足赤”,随着业务场景日益复杂与需求多样化,传统OCR的局限性也逐渐成为制约企业转型发展的瓶颈。 从技术层面看,传统OCR对复杂场景的适应能力及上下文语义理解极为有限。对于存在多样化表格、混排内容、背景干扰、模糊、多语言混合等情况的图像难以准确地识别、分离出字符区域,导致识别错误率升高。 在识别能力上,传统OCR还缺乏灵活性,难以应对多样化的输入。不同的行业存在不同格式的文档和图像,而传统OCR往往难以快速适应这些变化,需要进行大量的调优或模型定制,进一步增加了使用成本和时间成本。 当前,在AI大模型热潮下,OCR技术正迎来新一轮生产力效率变革。 在实际应用中,大模型加持的OCR可以更准确、灵活应对不同行业复杂多样的文档格式与版式,助力企业实现业务流程自动化升级,大幅提升运营效率与数据处理准确性。那么,鹅厂的多模态OCR大模型如今进展如何呢? 接下来,我们将通过一篇文章为大家全景展示鹅厂OCR多模态大模型最新技术进展与商业化。 一、技术演进 1.OCR 1.0:多阶段技术方案 在深入探讨OCR大模型之前,先回顾一下传统OCR技术的典型流程PPL。 典型OCR流程由文本检测模块、文字角度预测及扭曲矫正模块、文字识别模块、信息提取模块组成,阶段较多,且每个模块都具有一些瓶颈。 文本检测模块:在多行文字套打场景、非规则形状场景以及大小字混合场景中,容易错检、漏检。角度预测及扭曲矫正模块:在多角度文本混合时易错分。此外,扭曲矫正通常只适用于特定的文本排列模式,如曲线文本。识别模块:文字重叠、生僻字以及低质量图像时,由于无法基于整图信息结合上下文推测,这一模块的识别能力受限。信息提取(结构化)模块:该模块通常基于复杂的规则或语义方案,泛化能力较弱,定制工作量大,且扩展性差。 2.OCR 2.0:端到端OCR大模型 由于后续模块难以修正前置模块的错误,这导致了错误的累积,使得在处理难度较高的场景时难以获得理想的效果。为了解决这些问题,并提高模型的泛化能力,腾讯优图实验室在2022年提出OCR大模型的方案,技术文章被计算机视觉顶会ICCV 2023录用。 对于OCR大模型,我们提出了以下三个核心目标: 1)端到端解决方案:通过一个统一的模型解决OCR中的链路问题,克服多阶段处理的瓶颈;2)智能化:构建具有更强泛化能力的模型,实现单一模型并支持多种任务,能够有效处理OCR识别、KV结构化提取等任务;3)高效、高精度:OCR大模型不仅在效果上优于原有多阶段技术方案,通过极致的性能优化,在推理耗时上也具备非常强的技术优势,单Token平均耗时低于1ms。 3.OCR 3.0:多模态OCR大模型 常规结构化任务是基于场景或者版式做的定制处理,成本很高。腾讯云OCR文档抽取(基础版),将结构化抽取任务抽象成从图像到结构化抽取文本的多模态翻译任务,解决了常规K:V场景的结构化抽取。但是实际业务还会面临更复杂的情况,包括:多页文档处理、文档多版式需要按照定义的规则输出(同个字段在名称上有较多不同形式的表达)、表格形式提取等,需要多模态大模型的通用图像理解能力。 特别是个性化需求:每个用户对于OCR有着自己独特的业务诉求,例如同样是表格,有用户希望按照结构化KV输出、Excel输出、Markdown输出等等;或者用户希望按照所提供的样例和自定义提取规则进行输出,这需要多模态大模型的Prompt理解能力。 二、领域进展 以GPT-4o,Mini-GPT4、LLVA等为代表;该类模型通过超大规模的视觉语言预训练任务,使得模型具备比较好的图像感知及意图理解能力,这些模型的典型结构为: 图片摘自LLAVA(https://arxiv.org/pdf/2304.08485) 实现流程:在原生纯文本大模型的基础上,将图像提取视觉特征(图像Token)作为额外输出。 部分模型实测也具备一定的OCR识别能力,但工业实际应用时发现存在三个主要问题: 精度较低,识字能力偏弱,在常规任务上低于传统OCR模型的表现;场景受限:仅适用于小分辨率的清晰印刷场景,同时输出形式上存在较大的不确定性;成本高:推理成本为常规OCR模型的数百倍,不适应于高频的OCR任务。 三、技术要点 1.腾讯优图OCR大模型技术演进路线 腾讯优图实验室对于大规模预训练OCR模型的探索始于2019年,目前的OCR大模型属于第五代大规模预训练模型(DocLM v5)。 2.高分辨率图像处理 OCR场景分辨率通常较高,部分图像可达到4K。常规视觉多模态模型的处理尺寸为224*224,或者448*448,无法满足OCR需求。 业界也有出现一些处理方案,包括: 1)通过对于大分辨率划分成一些预先定义好的栅格,再针对每个栅格进行视觉编码和融合。 2)或者是对于图像按照转换为动态数量的tokens。 以上方法可以一定程度上解决大分辨率的问题,但是随之而来的是会导致输入序列特别长,常规4K分辨率图像可以达到上万个视觉Token,导致模型推理效率的大幅下降以及对于GPU显存的高需求。 基于对文档类场景的观察,文档图像并非所有的视觉Token都具有价值,与问题Prompt相关的视觉Token一般只有5%或者更低,因此有较大幅度的空间可以压缩视觉表达,我们提出内容感知的视觉过滤机制,将与无关视觉信息过滤。如下面这张图,原始图片表达是9126个Token,经过过滤后仅有330 Token与问题相关,压缩了95%以上的内容。 具体实现流程:图像分完Patch后(可理解为将大的图片切分成非常多的小图片)通过一个可插拔的文字内容感知模块过滤非文字图像块得到裁剪后Token。裁剪后的Token与指令特征融合,进一步过滤掉与指令无关的标记。最终,精简后的视觉标记和指令被输入到LLM中,生成相应的响应。总体对于视觉Token的过滤平均可以达到90%以上,大幅缩减了耗时。 可视化操作过程:可以发现,模型在不断将图像特征进行过滤,首先过滤掉非文字部分,然后过滤掉非语义相关部分,最终仅关注与问题相关的图像区域,大幅降低了图像序列长度对于模型效果效果的影响。基于此方案,OCR能力边界轻松从单一的图像处理扩展到了多图处理,适用于复杂多图(如国际发票中,通常具有附页)端到端处理。 3.文档场景细粒度感知 文档对象对比学习(DoCo),专为VDU(文档智能理解)的下游任务设计。DoCo利用辅助文档多模态编码器获取文档对象的特征,并将其与LVLM视觉编码器生成的视觉特征对齐,从而增强文本密集场景中的视觉表示。对比学习文档对象的视觉整体表示和多模态细粒度特征,可以帮助视觉编码器获取更有效的视觉线索,从而提升LVLMs对文本密集文档的理解。 此外,腾讯优图实验室团队还证明了DoCo作为一种即插即用的预训练方法,可以在不增加推理过程计算复杂度的情况下用于各种LVLMs的预训练。多个VDU基准上的大量实验结果表明,配备DoCo的LVLMs可以实现更优性能,并缩小VDU与通用视觉语言任务之间的差距。 常规多模态大模型在文档场景通常很难做到细粒度感知,表现为文字识别错误、理解偏差等情况,我们发现该问题的发生主要是文档视觉特征没有和文本文字、文本坐标框这类文档场景特有的多模态属性进行对齐导致的。 基于此,我们在训练阶段,将文档中的坐标信息、文字信息同时进行编码,并通过对比学习的方式与图像特征进行对齐,增强文档细粒度感知,使得大模型在密集文字场景也取得了比较好的效果。 从图表和文档问答的实际表现中可以看出,文档细粒度对比学习在回答精准度上相比于业界常用的CLIP技术方案,有比较好的提升。 四、文档智能 前文提到传统OCR技术与性能的局限性。 从行业视角看,在物流、出行、金融、零售、医疗、教育、保险等领域,OCR一直有着高频使用需求。而在处理非标准化票据单据、多页合同、复杂文档识别上,传统OCR的准确率往往难以满足业务实际要求,这些技术瓶颈导致企业仍需投入大量人力进行二次核验,严重制约着业务流程自动化进程。 基于腾讯优图多模态OCR大模型,我们正式推出了【文档智能】OCR新能力,打造新一代智 能文档处理平台,实现各类文档的高精度识别、智能解析与结构化信息抽取。 几点优势总结: 多模态融合解析:支持文本、图像、表格、版式等融合解析,突破传统OCR单模态解析局限。识别到推理能力跃升:支持"数据抽取→语义理解→业务推理"三级能力跨越,更好的适配复杂业务场景。基于百亿级参数架构,实现更高性能与识别精度:1)同等参数规模下处理速度行业领先,实现5ms/token的识别效率(平均单文档<2s);2)在固定卡证票据版式中,识别精度高达97%,在版式多变或中英文混排等复杂文档场景,也能保持95%以上的准确率。便捷易用:无需繁琐模型训练,开箱即用,支持API接入。 以交通物流、医疗保险理赔场景为例: 在(跨境)物流行业,票据单据的智能化处理直接影响企业运转与供应链协同效率及成本控制。腾讯云OCR文档智能针对物流行业核心场景提供一站式解决方案: 大宗货运磅单履约:精准识别重量、车牌、货物类型等关键字段信息,确保运输数据准确录入。跨境货代提单识别:支持混合排版解析,自动提取提单号、集装箱号、收发件人信息,助力国际物流高效通关。快递快运隐私面单:高精度识别收、寄件地址等信息,提升分拣效率,减少错派率。国际invoice识别:国际invoice因企业全球化需求,存在版式多样、自定义差异大等问题,文档智能支持多语言混合、复杂表格、手写备注等多样化信息的高精度识别,泛化性更强。差异化、模糊单据识别:1)支持全国各省市版式差异、200+保险公司版式、上千种收发货磅单版式;2)支持模糊/破损面单的容错处理、复杂背景(如塑封反光)下文字识别。 某物流企业接入文档智能产品后,单据处理时效从小时级缩短至分钟级,错误率下降60%,年节省人力成本超千万元,推动企业业务向全流程智能化迈进。 在医疗保险理赔业务中,传统OCR技术难以应对全国各医疗机构出具的非标准化、版式复杂、内容多样、病历字迹潦草的医疗单据(如门诊病历、住院清单、检查报告等)。 文档智能产品基于多模态OCR大模型的深度语义理解+结构化抽取技术,能够精准识别医疗文档中的关键字段(支持全国三甲医院200+版式模板),实现95%+的字段级识别准确率。 报告解析:检验报告、病历报告等文件关键字段提取解析(包括跨机构报告关键字段智能归一化输出);医疗表格:支持复杂有线、无线表格字段信息精准抽取。医疗单据核对:住院发票、费用清单、结算单等单据关键信息自动识别。诊断证明识别:诊断证明、出院记录、住院病例首页等文件结构化抽取。医保报销:支持全国100+保险公司版式智能抽取、小字体保单字段信息专项优化。病历字迹识别:连笔、草书字符精准识别、双栏/跨页内容自动拼接。 某头部保险公司应用后,理赔材料处理效率提升200%,人工审核成本降低60%。 五、实测体验 1)复杂文档:对于字段名称理解并映射。 2)表格场景:表格可提取结构化及行列信息。 3)多页场景:可支持5页内文档信息提取,如国际发票、合同文件等。 4)Prompt自定义能力:提取固定Key内容,按照自定义需求从图中提取关键字段信息。 参考文献: [1] Doclm-V1: GMN: Generative Multi-modal Networkfor Practical Document Information Extraction[2] Doclm-V2: Query-driven Generative Network for Document Information Extraction in the Wild[3] Doclm-V