AI智能总结
—DeepSeek的突破边界与浙大先生的未来图景 陈文智 浙江大学信息技术中心浙江大学人工智能教育教学研究中心 2025年02月17日 DeepSeek关键词 02Project01 DeepSeek突破边界 Chatting or Acting——DeepSeek的突破边界与浙大先生的未来图景 DeepSeek席卷全球 引爆全球,高性能、低成本的国产、开源大模型! •DeepSeek-R1已发布并开源,性能对比OpenAIo1正式版。 •在 目 前 大 模 型 主 流 榜 单 中,DeepSeek-V3在开源模型中位列榜首,与世界上最先进的闭源模型不分伯仲。 DeepSeek—有史以来最快获得1亿注册用户的APP。 近期因开源AI大模型和相关技术火爆全球,DeepSeek一度在140多个国家的应用商店下载排行首位。 DeepSeek模型架构创新 ——采用MoE架构并解决路由崩溃难题 DeepSeek模型架构创新 ——MLA多头潜在注意力机制降低成本、提高效率 DeepSeek模型架构创新 ——MLA多头潜在注意力机制降低成本、提高效率 DeepSeek模型架构创新 ——MLA多头潜在注意力机制降低成本、提高效率 DeepSeek模型架构创新 ——MLA多头潜在注意力机制降低成本、提高效率 DeepSeek模型架构创新 ——MLA多头潜在注意力机制降低成本、提高效率 DeepSeek模型架构创新 ——MLA多头潜在注意力机制降低成本、提高效率 DeepSeek工程优化 ⚫通信优化: DeepSeek预训练数据与策略 同时预测多个未来Token,训练效率提升1.8倍,推理加速显著 DeepSeek低精度训练与成本控制 关键模块(如Embedding、Attention)保留BF16/FP32计算,平衡效率与精度 总成本550万美元(2.788M H800 GPU小时),预训练效率达每万亿Token仅180K GPU小时 DeepSeek训练方法创新 R1-Zero的创新——纯强化学习训练 DeepSeek训练方法创新 ⚫冷启动数据构建: 引入数干条高质量人工标注数据(含Few-shot提示、R1-Zero优质输出),通过微调建立初始推理框架,解决纯RL初期低效问题 ⚫多阶段强化学习设计: ✓推理任务专项优化,新增语言一致性奖励(解决多语言混杂问题)✓阶段2:拒绝采样生成高质量SFT数据(仅保留答案正确且推理清晰的样本)✓阶段3:全场景RL,融合规则奖励(数学/编程)与模型评估奖励(开放问答 DeepSeek训练方法创新 推理能力蒸馏与开源生态 DeepSeek给了我们什么启示 战略拐点:人工智能的拐点已经从成长期到产业化转换 算力拐点:DeepSeek的出现,意味着算力效率拐点显现 DeepSeek通过优化算法架构,显著提升了算力利用效率,打破了算力至上的传统认知。 数据拐点:AI基础大模型的参数量迎来拐点 2025年发布的大模型,都具有低参数量的特征,为本地化部署到AI终端运行提供了可能 技术路径的循环:算法创新再次成为新的突破点 AI技术创新一直在围绕核心三要素在动态循环,2025年再次进入算法创新阶段 非Transformer的架构模型:液态神经网络(Liquid Neural Nets) 不能因为唐僧克服千难万险步行到西天取到真经就认为需要反思火车飞机的重要性。 02Project02 LLM or Agent Chatting or Acting——DeepSeek的突破边界与浙大先生的未来图景 有了大模型(LLM)为什么还需要智能体(Agent)? AI发展过程 AI大模型正迎来从简单推理到深度思考的时代 优化大模型表现的几大手段 大模型在场景落地时,会存在部署推理成本高、专业知识不足、幻觉问题严重等问题因此在专业级市场,需要基于以下手段,提升大模型在垂直领域的表现 ③RAG ②模型微调 ①模型蒸馏 •是学生通过模仿老师的解题思路,达到和老师相似的知识水平。•适用于将大模型的能力迁移到小模型上,以适配更低端的算力环境。(比如在企业私有云、个人电脑甚至手机、边缘终端上)。 •“检索增强生成”。简单来说,就是每次先查资料,再回答问题。•RAG,不是训练,不改变大模型的自身能力”,但可以作为外挂,提升大模型回答问题的精准性。 •又叫精调,相当于学生意识到自己某门课有短板,然后自己找参考书恶补了一下,从而补上短板。•适用于特定场景下,用特定数据集对通用模型进行小规模训练。 从大模型到智能体,AI应用交互的进化的必然之路 LLM:LUI交互(自然语言为核心交互方式) •通过语言用户界面,依赖用户给出的清晰明确的指令来完成任务•通过对话式给出输出,但是无法直接完成用户的目标,即只具备“你问我答能力”,无法实现“你说我做” Agent:具备自主能力的新一代AI应用 •具备推理和规划能力,无需用户给出非常明确的指令•并非辅助用户完成特定任务,而是基于用户提出的目标,自动理解目标并完成用户的任务 有了大模型,还需要智能体 详细分析 LLM通常是基于对输入文本的理解来生成响应,缺乏明确的目标导向和主动执行任务的能力。Agent智能体则可以被赋予特定的目标和任务,能够根据环境和用户需求,主动地规划、协调和执行一系列操作来完成任务。例如在智能办公场景中,Agent智能体可以根据用户设定的会议安排目标,自动查询参会人员日程、预订会议室、发送会议通知等,而LLM可能只是回答关于会议安排的相关问题,不会主动去执行这些任务。 目标导向与任务执行 现实世界中的很多任务需要与多种模态的信息进行交互,如视觉、听觉、物理环境等,LLM主要处理文本模态。Agent智能体可以配备各种传感器和执行器,实现与多模态环境的交互。比如在智能家居控制中,Agent智能体可以通过摄像头识别环境状态,通过语音与用户交流,还能控制家电设备,而LLM本身无法直接进行这些多模态的交互操作。 多模态与环境交互 在复杂和动态的环境中,需要有自主性和决策能力来应对各种情况。Agent智能体具有自主性,能够根据自身的知识、经验和当前环境状态,独立地做出决策并采取行动。例如在自动驾驶场景中,Agent智能体需要根据实时的路况、交通信号、行人等信息,自主地做出加速、减速、转弯等决策,而LLM只能提供关于驾驶的一般性知识和建议,无法直接做出实时决策。 用户在与智能系统交互时,往往希望得到个性化的服务和长期的陪伴。Agent智能体可以建立用户模型,记录用户的偏好、习惯和历史交互信息,从而提供更加个性化的服务和更加连贯的长期交互。比如在智能教育领域,Agent智能体可以根据学生的学习进度、知识掌握情况,为其量身定制学习计划和辅导内容,与学生进行长期的互动和学习陪伴,相比之下,LLM在每次交互时可能并不一定能充分利用之前的交互信息来提供个性化服务。(一般只能通过对话的上下文)。 在实际应用中,往往需要整合多个系统和资源来完成复杂的任务。Agent智能体可以作为一个中间协调者,与不同的系统和服务进行交互和协作。例如在医疗领域,Agent智能体可以连接电子病历系统、医学影像系统、医生的诊断工具等,协调各方资源,为患者提供全面的医疗服务,而LLM难以直接承担起这种系统整合和协作的角色。 大模型与智能体的螺旋共生关系 智能体(AI Agent)由Instruction、Knowledge、Action、Memory等多个模块组成,在创建助理成功后,可以通过聊天、事件感知、定时等多种触发方式发起对AI助理的运行,在Planning过程中会基于大模型进行思考推理、编排,最终执行Action,逐步完成全部任务。 智能体开发时代的到来 智能体开发 •从“开发”转为“创作”,真正的人人都是AI创作者的时代 智能体开发 •通过多模态能力,让智能体的交互体验比肩APP 智能体开发 •多个智能体通过“工作流”的定义,实现相互协同,共同完成复杂任务 智能体开发 •基于平台能力,赋能师生构建不同“段位”的智能体应用。 青铜 黄金 让应用像人一样思考 为应用装上记忆和手脚 5分钟创建一个应用 大模型+提示词 大模型+提示词+知识库+插件 大模型+提示词+知识库+插件+工作流 专家级应用 人人都是AI创作者时代,用Agent重塑工作方式 DeepSeek多场景全面接入 •三大基础运营商、超过15家芯片厂家、200多家企业(涉及云服务、网络科技、金融等领域)、多个手机厂商和车企,以及地方政府政务系统等。此外,世界级的云计算巨头如微软、英伟达、亚马逊也宣布接入DeepSeek。 •DeepSeek的“朋友圈”不断扩大 •在AI领域的创新性和实用性 DeepSeek多场景全面接入 Agent 双螺旋式智能演进 实现价值闭环 提供认知底座 02Project03 处处用AI,人人会AI ——以“浙大先生”为例 Chatting or Acting——DeepSeek的突破边界与浙大先生的未来图景 2025春天来了 懂浪漫的“浙大先生” ——基于DeepSeek与Carsi赋能智慧教育新生态发布会于2025年2月14日圆满落幕 AI联盟赋能教育发展 全球智能教育联盟 Global Alliance for Intelligent Education(GAIE) CARSI助力浙江大学成为第三个解锁“校建资源提供者”身份的高校,可借助CARSI全球化渠道,将学校自建的特色应用资源“大先生”提供CARSI联盟高校和全球联盟eduGAIN资源的应用范围和影响力。 联盟以“共享、协创、普惠”为核心目标,旨在促进AI技术与教育的深度整合,构建一个多层次的AI教育合作发展生态。在AI教育研究、应用、推广与连接面向,通过推动AI技术在教育领域的深入应用和广泛普及。 牵手CARSI赋能教育发展 “浙大先生”智能体服务门户(chat.zju.edu.cn)已接入CARSI 牵手CARSI赋能教育发展 “浙大先生”智能体开发平台(open.zju.edu.cn)与CARSI对接中 门户升级:引入新模型 新模型:提供创建基于DeepSeek模型的智能问答对话的服务能力 门户升级:智能体广场 门户升级:开发者中心 门户升级:智创工坊 门户升级:智汇任务台 提供各类大模型创作与使用的示范案例 应用升级:学在浙大 应用升级:学在浙大 应用升级:学在浙大 多意图AI会话学习 应用升级:智云课堂 •本堂课学习路径查看 •知识点解析•课堂内容答疑 应用升级:ETalk-口语对话平台 ETalk应用 主题教学 脚本练习 水平测试 观止ETalk口语对话平台是一款基于多模态大模型技术的口语学习指导工具,通过动态适配全校本科生的语言理解、口语水平的差异,同步课堂教学进度、引导学生运用、记忆所学内容。基于海量教学案例及对话语料,实现高校口语教学领域的专业模型训练及微调。该平台围绕主题对话、脚本练习、语句润色及自由对话四大应用场景,为学生提供便捷高效的口语对话训练案例及指导。 智能生成对话脚本,长文本分割逐步引导用户跟读学习 限时6分钟1V1数字人对话测试模拟真实对话场景 实现内容分级,围绕教学主题与用户进行匹配水平的对话 浙江大学外国语学院实践案例 应用升级:Etalk—口语对话平台 接入DeepSeek赋能,基于外语学院口语对话场景负载测试 个性化、多主题、高响应的对话场景 相 较 于LLama3-8b模 型,DeepSeekV3可实现以下特性: •动态上 下文缓存机制 :长对话场景内存占用减少40%•量化压 缩技术:模型 体积压缩至3.2GB(原LLaMA3-8B的45%)•ROI对比:相同预算下,V3可处理3.7倍用户请求量•长文本场景运维人力节省35