行业研究公司研究宏观策略财报招股书会议纪要 seedance2.0 低空经济 DeepSeek AIGC 大模型

2025年人工智能技术发展与应用探索演讲

2025-02-26 - 中科闻歌极度近视

人工智能技术发展与应用探索

人工智能技术发展

ChatGPT揭开通用人工智能序幕：标志着强人工智能时代的到来，推动人工智能发展和应用迭代加速。
弱人工智能到强人工智能的演进：经历了多个阶段，从“如何用机器模拟人的智能”到“会看、会听、会说、会学习、会行动”。
大模型的优势与不足：大模型具有通顺通识通用、通畅的优势，但也存在静态模型不产生知识、不能理解领域复杂问题、大模型安全等不足。
ChatGPT是工程积累的奇迹：并非基础科学突破，而是大模型技术大集成，体现了人机协同、群体智慧和大数据、大算力的应用。
大模型是智力密集型工程：ChatGPT的学习过程分为泛学、矫正、拟人三个阶段，体现了先量后质的分阶段学习特点。
大模型是人机协同群体智慧：需要人力密集的工程进行数据标注和模型训练。
大模型需要大数据与大算力：以ChatGPT为例，展示了参数规模、数据规模和训练成本的巨大提升，体现了算力密集型工程的特点。

Deepseek认知与影响

DeepSeek模型发展特点：采用专家负载均衡策略、多词预测训练目标，具有极高地训练效率，效果与闭源模型可比。
DeepSeek-R1加速“o1时刻”到来：通过开源复现DeepSeek R1，验证了“有限算力+算法创新”发展模式的有效性。
DeepSeek三大特征：
- 复制OpenAI o1技术思路：通过大规模强化学习训练，逐步增加模型思考时间，实现“Aha moment”的顿悟与反思行为。
- 通过工程优化极致压缩训练成本：采用MoE、MLA、MTP等技术，并优化计算集群和训练框架，显著降低训练成本。
- 定位为OpenAI o1的开源平替：DeepSeek全系列开源模型权重，为国内外开发者提供替代方案，难以被禁用。
DeepSeek-R1的训练过程：分为四个步骤，包括冷启动数据训练、RL方案训练、拒绝采样与SFT训练、组合奖励信号训练。
DeepSeek-R1的不足：通用能力不及V3，语言混用，对few-shot敏感，软件工程能力待提升。
其他开源模型的进展：Sky-T1、STILL-2、STILL-3等模型在性能上接近或达到DeepSeek R1的水平。

金融行业案例

金融行业大模型应用类型：数据工具类、领域模型类、决策AI类。
案例分享：
- 某大型金融机构财报解读问答：基于三大报表，实现跨文档长文档分析推理，内容精准溯源和定位。
- 某证券公司智能合规比稿：自动理解报告与底稿内容，逐条对比，发现报告中无依据观点，辅助人工审核。
- 某上市公司财税大模型：打造满足工程化需求的精准、高效、安全的财税大模型，赋能财税部落和自助办税终端系统。
- 银行信贷审核智能体：实现对公初审报告、个贷初审报告自动生成，提高信贷审核精度和效率。
- 某银行金融犯罪智能分析系统：识别、评估和防范各类金融犯罪风险，确保银行资产安全、业务稳定。
- 某大型银行 AI信贷尽调报告：利用大模型三步生成企业信贷尽调报告，降低人工尽调信息收集和处理的时间。
- 基金证券投研智能体：实现对话式问答、素材智能提炼、报告自动生成，提升投研工作效率和质量。
- 港府某机构经济分析报告智能写作系统：辅助经济专家定期分析世界经济政策、指标和事件并撰写成报告。
- 创投基金智能资管平台：实现“募、投、管、退”投资管理，助推投资机构数智化转型，赋能投资生态。

中科闻歌介绍

中科闻歌聚焦企业级DATA+AI：形成数据、模型、决策应用，全栈式AI产品DIOS 3.0。
DIOS 3.0决策智能操作系统：包含闻智通用决策智能平台、领域决策模型构建模块、推演计算模块、策略评估模块。
雅意大模型：具有自主产权的国产原生基座大模型，支持多语言、多领域，性能优异。
优雅多模态大模型：面向泛媒体领域的通用解决方案，支持一键AIGC视频生成、联合多模态内容资产一键成片、视频AI工具辅助视频全链条创作等功能。
“智川”X-Agent智能体应用平台：为各行业提供零代码快速构建AI应用的解决方案，降低技术门槛，简化开发过程。

王磊中国科学院自动化研究所研究员中科闻歌董事长人工智能技术发展 01 Deepseek认知与影响 02 AI+金融实践案例 03 04创业介绍—中科闻歌 01人工智能技术发展 ChatGPT不是基础科学突破，是工程积累奇迹人机协同群体智慧（人力密集工程）大模型技术大集成（智力密集工程）大数据加大算力（算力密集工程）大模型：智力密集型工程 AI+行业落地三步曲 STEP1 STEP2 STEP3 模型工程领域工程数据工程继续预训练、多模型适配高质量领域数据治理指令微调、回馈学习、应用研发大模型应用到行业领域关键挑战：静态模型与动态数据的不匹配 AI+行业数智化路径思考：先升级、再泛化、后革新应用0-1创新：升级赋能：新业务、新功能，面上谋划现有系统和业务小模型，点上赋能 l新型研判范式、l未来态势l广域理解+高效推演 l数据分析、知识积累l分析深度+高质量+l高效率抓手与支撑：打造领域大模型 l前瞻性定义领域大模型与业务系统标准接口，多型共进，形成MoE(混合专家模型)生态，严格把好内容安全关，连续测试 02Deepseek认知与影响 DeepSeek模型发展 DeepSeekR1加速“o1时刻”到来深度思考模型让大模型领域再度迎来“ChatGPT/o1时刻” “有限算力+算法创新”发展模式是突破算力卡脖子限制的关键 “开源”加速促进人工智能技术快速迭代模型架构创新强化学习高效开源全方位技术开源高效训练-提升数据利用效率高效思考-提升思考信息密度 MoE/MTP/MLA提升训推效率 DeepSeek三大特征特征一：复制OpenAIo1技术思路通过大规模RL（强化学习）训练，逐步增加模型思考时间，涌现出“Ahamoment”的顿悟与反思行为，社区自发验证，影响力超过预期 OpenAI首席研究官MarkChen承认DeepSeekR1揭示o1核心思想 DeepSeek三大特征特征二：通过工程优化极致压缩训练成本架构侧优化提升训练推理效率 •MoE：采用细粒度专家和共享专家，671B参数，每个token激活参数37B，降本增效。•MLA：多头潜在注意力（Multi-HeadLatentAttention）通过低秩压缩减少KV缓存。•MTP：通过预测多个未来token提升规划能力（Multi-TokenPrediction），也用于推理加速。 Infra优化榨干阉割版特供显卡性能 •计算集群：2048*NVIDIAH800GPU并行训练。•训练框架：流水线并行+专家并行+数据并行，定制化PTX指令集（所谓“绕过CUDA”），提升节点间通信效率。•FP8混合精度训练：首次验证FP8训练的可行性，显著降低GPU内存使用并加速训练。 DeepSeek三大特征特征二：通过工程优化极致压缩训练成本 DeepSeek通过PTX编程“绕过CUDA”？ •CUDA和PTX的关系： •PTX（ParallelThreadExecution）是英伟达的并行线程执行中间表示语言（底层汇编语言）•CUDA（ComputeUnifiedDeviceArchitecture）是英伟达统一设备计算架构，封装了C++实现的GPU编程接口•CUDA编译器（NVIDIACUDACompiler，即nvcc）在编译流程中把CUDA代码编译为PTX代码，PTX代码会被进一步编译为特定GPU架构的机器码（ShaderAssembly，SASS），二进制机器码在GPU上执行。 •结论： •PTX是CUDA编译的中间表示，仍然依赖于CUDA的编译器和运行时环境（类似于windows驱动程序开发）并不意味着真正绕过了CUDA。•高级场景中，开发者可以直接编写PTX代码，并将其嵌入到CUDA程序中，用于性能优化，但仍然是在CUDA框架内进行的。 https://developer.download.nvidia.com/compute/cuda/docs/CUDA_Architecture_Overview.pdf DeepSeek三大特征特征二：通过工程优化极致压缩训练成本关于DeepSeek真实成本的估算？ •硬件成本：据外媒报道幻方拥有2w-5w块GPU，购买和运维成本过亿美元/年（保守估计至少有1w块A100，2000+块H800，这部分硬件购买成本就超过2亿美元）。 •训练成本：DeepSeekV3基座模型预训练语料14.8Ttokens，预训练+后训练57天（278.8万卡时）成本557.6万美元（不含小规模模型的消融实验）。 •数据成本：预训练数据采集和购买，SFT数据构建和质检，无法量化。其他大模型训练成本： OpenAlGPT-47800万美元GoogleGeminiUltra1.91亿美元Claud的训练成本数千万美元 DeepSeek三大特征特征三：定位为OpenAIo1的开源平替 NVIDIANIM、AWS、Azure等云服务平台上架DeepSeekAPI Windsurf等AI初创公司集成DeepSeek模型能力实现各种场景 DeepSeek全系列开源模型权重（未开源训练代码&训练数据） DeepSeek三大特征特征三：定位为OpenAIo1的开源平替 DeepSeek会被国外禁用吗？ •模型权重开源，无法禁用：开源的模型权重任何人都可以下载，就像unix、MySQL。开源模型在huggingface、github等平台可以任意下载。 •国外只能禁止调用中国大模型MaaSAPI服务，禁止使用DeepseekAPP和网页端，无法禁止机构和个人下载开源模型。可禁用不可禁用 DeepSeek-R1-Zero （671B，激活37B，128K上下文）基于DeepSeek-V3-Base验证纯RL方案（GRPO+基于规则的奖励）的可行性。但存在可读性差、语种混杂等缺点。 DeepSeek-R1 （671B，激活37B，128K上下文）基于Zero构建数千条冷启动数据做SFT+RL，拒绝采样60wSFT数据，配比共80w数据基于Base模型进行两阶段训练（SFT+RL）得到更强模型R1，整体能力对标OpenAIo1。 DeepSeek-R1-Distill （1.5B/7B/8B/14B/32B/70B）训R1的80w数据通过纯SFT蒸馏小模型，比直接对小模型做RL效果好，整体能力对标OpenAIo1-mini。如何通过GRPO训练DeepSeek-R1-Zero？（核心）为啥不用NN-basedRM？基于神经网络的奖励模型大规模强化学习过程中存在rewardhacking，且训练奖励模型需要额外的训练资源。 RL训练使用的指令模版该模板的目标是让模型按照指定的结构和步骤生成推理过程和最终答案，而不强制规定具体的推理方法或解题策略，不人为干预或限制，避免对模型产生内容偏见。奖励建模（基于纯规则的奖励） •准确性奖励：答案正确则奖励。对于数学问题，让模型以指定格式（\box）给出最终答案，以便基于规则校验；对于LeetCode问题，可以使用编译器根据预定义的测试用例生成反馈。•格式奖励：比如将思考过程放在和标签之间则给予奖励。如何通过GRPO训练DeepSeek-R1-Zero？纯RL方案的缺点 •可读性差（无md格式）•语种混杂（尤其非中英）因此，为了让推理过程更具可读性，推出R1模型。左图： DeepSeek-R1-Zero自然涌现出复杂的行为：反思、探索替代方法。右图：在某个中间版本出现“顿悟时刻”。训练DeepSeek-R1四步走（1/4）：通过数千条冷启动数据训SFT 冷启动数据的两个优势 •可读性高：让模型输出遵循||<思考过程>||<结果总结>的格式。•性能潜力：带有人类先验格式的冷启动数据，与DeepSeek-R1-Zero相比，性能有所提升。冷启动数据构建的三种方式（但未公开任何样例和数据分布） •使用longCoT作为example的few-shot提示•通过prompt让模型生成包含反思（reflection）和验证（verification）的详细答案•收集DeepSeek-R1-Zero的可读格式输出，并通过人工标注后处理来完善结果训练DeepSeek-R1四步走（2/4）：通过RL方案训GRPO增强推理消融实验结论引入语言一致性奖励的对齐会导致模型性能略有下降，但该奖励与人类偏好一致，使模型输出更具可读性。引入语言一致性奖励动机：这一阶段专注于提升模型在推理密集型任务（如编码、数学、科学和逻辑推理）推理能力。观察到链式推理（CoT）经常出现语言混用，特别是在prompt涉及多种语言时。为了缓解语言混用问题，RL引入语言一致性奖励，该奖励计算CoT中目标语言单词的比例。最终奖励：语言一致性奖励与RL方案中的准确性奖励直接相加。训练DeepSeek-R1四步走（3/4）：拒绝采样与SFT 拒绝采样与SFT 拒绝采样：这一阶段也纳入其他方面的数据，以增强模型在写作、角色扮演等通用任务中的能力。 SFT：对DeepSeek-V3-Base进行2epoch微调。 •60w推理数据：通过reasoningprompt用拒绝采样生成推理轨迹。使用生成式RM模型，将真实结果和模型预测输入DeepSeek-V3判断。过滤掉语言混用、长段落和代码块的链式推理。 •20w非推理数据：对于非推理数据，如写作、事实问答、自我认知、翻译，重用DeepSeek-V3的部分监督微调数据集。提示DeepSeek-V3生成CoT，然后回答问题。然而，对于更简单的问题，如“你好”则不提供CoT。注：未公开任何样例和具体数据分布训练DeepSeek-R1四步走（4/4）：通过RL方案训GRPO增强全场景能力组合奖励信号 •推理数据：遵循DeepSeek-R1-Zero，利用基于规则的奖励。•通用数据：采用奖励模型来捕捉复杂场景中的人类偏好。复用DeepSeek-V3的prompt分布和偏好数据提升helpful和harmless •有用性：专注于最终总结，确保答案实用性和问题相关性，同时尽量减少对推理过程的干扰。•无害性：评估模型的整个生成结果（思考过程+总结）以识别和减轻潜在风险、偏见或有害内容。复用DeepSeek-R1的SFT数据蒸馏小模型对于小模型，SFT蒸馏好，还是RL好？实验：用Qwen-32B-Base重复RL实验，使用数学、代码和STEM数据，训练超过10K步。得到结论：•小模型蒸馏效果更好，RL费资源但性能稍逊 •尽管蒸馏策略既经济又有效，但要超越智能边界，仍需要更强大的Base模型和更大规模的RL。两个不太成功的尝试 MonteCarloTreeSearch（MCTS） ProcessRewardModel（PRM）最早由OpenAI提出：https://arxiv.org/pdf/2305.20050 实践中MCTS的两个限制：实践中PRM的三个限制：•不容易定义细粒度步骤 •国际象棋搜索空间相对较为明确，而token生成呈现出指数增长的搜索空间。为了解决这一问题，我们为每个节点设置了最大扩展限制，但这可能导致模型陷入局部最优。•AlphaGo的核心成功依赖于训练一个价值模型指导搜索过程，来逐步提升性能。由于token生成的复杂性，训练精细的价值模型本身就很困难。 •不容易确定当前某步骤是否正确。使用模型进行自动化标注效果不行，人工标注没法大规模。•基于模型的PRM会导致rewardhacking，且重新训练奖励模型需要额外的训练资源，训练流程复杂化且成本高结论：结

点击免费查看完整报告