您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。 [未知机构]:DeepSeekOCR2模型升级总结核心创新DeepSeek - 发现报告

DeepSeekOCR2模型升级总结核心创新DeepSeek

2026-01-28 未知机构 阿丁
报告封面

DeepSeek最新发布了OCR 2 模型,这是一次重要的技术升级。 该模型通过引入视觉因果流机制,彻底改变了传统视觉语言模型处理图像的方式。 关键技术突破1. 架构革新替换CLIP模型:用LLM架构(阿里Qwen 0.5B)替代传统的CLIP ViT 组件t 双流注意力机制:结合双向注意力与因果注意力,实现视觉 DeepSeek-OCR 2模型升级总结核心创新 DeepSeek最新发布了OCR 2 模型,这是一次重要的技术升级。 该模型通过引入视觉因果流机制,彻底改变了传统视觉语言模型处理图像的方式。 关键技术突破1. 架构革新替换CLIP模型:用LLM架构(阿里Qwen 0.5B)替代传统的CLIP ViT 组件双流注意力机制:结合双向注意力与因果注意力,实现视觉token的语义重排序模拟人类视觉:采用“因果推理”机制,智能重排视觉令牌,遵循图像的内在逻辑结构2.性能优化 Token预算控制:视觉Token数量限制在256-1120之间(与Gemini-3 Pro 一致)多裁剪策略:灵活调整视觉token 数量,平衡效率与精度混合专家解码器:提升推理效率 性能提升数据 整体性能:在OmniDocBench基准测试中达到91.09%,比OCR 1提升3.73% 错误率降低:在线OCR服务重复率:从6.25%降至4.17% PDF数据处理重复率:从3.69%降至2.88%应用价值 该技术特别擅长处理复杂文档,能更准确捕捉文档结构逻辑,减少冗余信息生成,为真正的二维视觉推理提供了新范式。 开源情况模型已经开源,相关论文和研究成果已在GitHub 发布。 此次升级验证了DeepSeek利用Qwen模型的多模态潜力,为统一文本、语音、视觉的多模态处理奠定了基础。