AI智能总结
传统OCR深度学习模型 ➢ ➢ OCR大模型 OCR大模型的特点 ➢ OCR大模型适用场景--票据识别 ➢➢➢ OCR大模型适用场景-表格识别 OCR大模型适用场景-文档识别 OCR大模型适用场景--自然场景识别 腾讯云OCR大模型家族 DocLM--端到端文档图像理解 ⚫图像到文字直接生成,内容感知和具体任务解耦⚫单模型&多任务:单模型支持多种类型任务,任务间能力互补⚫效果更好&场景泛化:结构化指标更优,支持自然场景⚫数据&推理成本低:与多阶段结构化方案持平 DocLM核心技术 DocLM模型效果 ➢➢➢➢ DocQA--阅读理解问答 ⚫阅读理解任务能力同步提升:结构化&阅读理解⚫基于检索的知识库问答 DocQA核心技术 DocQA模型效果 封闭式问答能力 文本摘要能力 MLLM--多模态大模型 ⚫从支持自然场景扩展至文档场景 ⚫Few-Shot Learning(ICL)在结构化等任务上表现优异 MLLM核心技术 MLLM模型效果 归纳&理解能力 基于外部知识生成能力 TI-OCR支持OCR大模型精调 TI-OCR支持OCR大模型精调 OCR大模型精调所需资源 典型案例 典型案例 典型案例