Deepseek内部研讨系列 DeepSeek与新媒体运营 AI肖睿团队 (相洪波、刘春艳、伊丽娜、李娜) 2025年3月8日 北大青鸟人工智能研究院 北大计算机学院 北大教育学院学习科学实验室 摘要 1本次讲座为DeepSeek原理和应用系列研讨的讲座之一,旨在帮助新媒体从业者理解AI技术在运营中的应用策略、场景落地以及未来发展趋势,同时探讨AI技术带来的挑战与应对方法。 2本讲座的内容分为5个主要部分: 介绍了DeepSeek的背景与发展,重点分析了DeepSeekR1推理模型与V3生成模型的特点与适用场景,对比了不同规模模型的性能表现,帮助用户选择适合自身需求的版本。 介绍了大模型三层能力模型,生成式模型和推理型模型的对比,以及大模型的应用场景,通过提示词工程借助DeepSeek的能力将 各领域专家思维赋能于日常学习、工作和生活。 在新媒体运营的应用策略部分,资料详细阐述了AI在内容生产、用户运营、数据驱动运营、直播电商等全链路场景中的具体应用。 AI技术在新媒体行业的落地案例30个,展示了如何通过DeepSeek提升内容创作效率、优化传播策略、增强用户互动体验,并结合实际数据说明AI技术对新媒体运营效率的显著提升。 分析了AI技术带来的挑战,如内容同质化、隐私风险、伦理争议等,并提出了应对策略。强调了新媒体运营人员如何应对人工智能对行业的冲击,以及营销全链路变革等方面的发展趋势。 3在技术学习的道路上,优质学习资源至关重要。推荐大家参考《人工智能通识教程(微课版)》这本系统全面的入门教 材,结合B站“思睿观通”栏目的配套视频进行学习。此外,欢迎加入aikgccn社区,以及“AI肖睿团队”的视频号和微信号,与志同道合的AI爱好者交流经验、分享心得。 目录 0102 DeepSeek和AI认知AI在新媒体中的落地使用 1DeepSeek的背景和发展 2AI的能力边界和发展认知 1AI在新媒体中的应用策略 2AI在新媒体中的应用场景 3AI在新媒体中的挑战与展望 现象:DeepSeek快速出圈 2024年12月26日,DeepSeek推出对标OpenAIGPT4o的语言模型DeepSeekV3,随后在美国AI行业内部引起轰动。 2025年1月20日,DeepSeek发布对标OpenAIo1的语言模型DeepSeekR1,并于1月24日引起美国投资界KOL关注。 2025年1月26日,关于DeepSeek颠覆了大模型的商业模式的讨论,引发英伟达股价大跌,DeepSeek首先在美国出圈,引发社会讨论。 春节前后,DeepSeek在中国出圈,并上升到中美竞争高度,企业纷纷接入DeepSeek,DeepSeek成为AI和大模型的代名词。 DeepSeek让AI跨越了鸿沟。 到底谁是DeepSeek?公司、模型、产品 公司简介 DeepSeek于2023年5月成立北京公司,2023年7月成立杭州公司,是幻方量化孵化出的一家大模型研究机构,160人的团队分布在中国杭州和北京,是中国AI20(大模型)时代的七小龙之一。 注:AI10(深度学习)时代的四小龙: ModelBaseModel DeepSeekR1DistillQwen15B 商汤、旷世、云从、依图 DeepSeekR1DistillQwen7B Qwen25Math15B Qwen25Math7B 蒸馏模型,能力稍弱 除了DeepSeek之外,其它六家大模型公司也被投资界称为中国大模型企业六小虎(智谱AI、百川智能、月之暗面、阶跃星辰、MiniMax、零一万物)。 DeepSeekR1DistillLlama8BDeepSeekR1DistillQwen14B DeepSeekR1DistillQwen32BDeepSeekR1DistillLlama70B Llama318B Qwen2514BQwen2532B Llama3370BInstruct 实际上是增加了推理能力的Qwen模型和 Llama模型,不能称为DeepSeek模型 市场上有误解,厂商有误导,Ollama工具的模型选项中也有误导 DeepSeekR1671B DeepSeekV3Base满血版,能力最强 到底谁是DeepSeek?公司、模型、产品 AI系统的技术实现AI系统的部署方案(公有云、私有云、本地化) SaaS 生产办公系统:目前多数为定制开发(RAG、LangChain、Agent等) 对话机器人:目前多数为标准产品,使用云服务 应用服务(网页、APP、桌面软件、设备软件) 免费:DeepSeek、豆包、Kimi、元宝、Monica、秘塔搜索、问小白、MollyR1等收费(月费;充值):文心一言、通义千问、Liblib、ChatGPT等 开源模型:DeepSeek、Qwen、Llama、SD、微调模型等 MaaS向上提供:私有化部署,公有云服务(DeepSeek官网、硅基流动、火山引擎等) 模型服务(数据工程、推理加速、训练框架、API调用)闭源模型:OpenAI、Claude、百度等 向上提供:公有云服务 PaaS私有化部署 平台服务(存储、计算、数据、安全) IaaS 硬件服务(设备电脑服务器GPU、网络) 本地:个人设备或电脑、企业服务器 数据中心(IDC):企业服务器、服务器集群(私有云) 公有云服务:阿里云、火山云、腾讯云、金山云、华为云等;AWS、Azure等 出圈的是模型:DeepSeekR1模型 1对于大模型研发企业,更加重视infra工程的价值了。 出圈的核心原因2 对于大模型应用企业,有了更多高效低成本解决方案。 能力突破:推理模型的全球第一梯队。 加分项:开源、低成本、国产自主。 3对于社会大众,认识到AI是一个趋势,不是昙花一现。 4对于市场,用户开始主动引入AI,不再怀疑了。 5对于国家,大幅缩小了中美的核心技术差距。 6对于全人类,技术平权,造福一方。 混合专家 多头潜注意力 多Token预测 强化学习 测试时计算 混合精度训练 通讯优化 并行训练框架 直接硬件编程 MOE MLA MTP GRPO TTC FP8 DualPipe HAI PTX 目录 0102 DeepSeek和AI认知AI在新媒体中的落地使用 1DeepSeek的背景和发展 2AI的能力边界和发展认知 1AI在新媒体中的应用策略 2AI在新媒体中的应用场景 3AI在新媒体中的挑战与展望 大模型相关术语 人工智能:让机器具备人类智能,让机器具备非人类智能(超人类智能) 传统:知识规则;专家系统(知识库推理机) 现代:数据学习;机器学习(模型、目标、策略);数据模型(IID) 常规机器学习方法:逻辑回归,决策森林,支持向量机,马尔科夫链, 人工神经网络:与人脑最大的共同点是名字(原理、机制和架构并不一样) 深度学习:深度神经网络(DNN) 2006传统神经网络架构:DBN,CNN,RNN,ResNet,Inception,RWKV, ImageNet超过人眼;AlphaGO(超过人类棋手);AlphaFold(超过人类科学家) 2017Transformer架构:并行矩阵计算(GPU),注意力机制(Attention) 传统架构:编码器(BERT)、混合网络 GPT架构:解码器(GPT) 1大语言模型(LLM,大模型) ChatGPT(45、4o、o1、o3)、Claude;Grok、Gemini;Llama、 DeepSeek、Step、Qwen;Kimi、MiniMax;GLM、火山豆包、百度 2视觉模型(DiffusionTransformer),多模态模型 图片:StableDiffusion、Midjourney、DALLE、Janus等 视频:Sora、可灵、海螺等 3通用模型vs垂直模型(行业模型):传媒、教育、医疗、金融等 大模型的三层能力 生成解决方案 1严肃内容垃圾信息的混合1提示词(Prompt) 1语言能力:理解和生成 2知识能力 2 幻觉 1 2 知识量大,但缺少内在关联能力 来源:有损压缩,NTP的温度观点:创意和创新 2思维链(CoT) 3搜索增强(RAG) 4知识图谱(KGE) 5模型微调(FineTune) 幻觉(生成不符合事实的内容) 知识库限制(公开、私有、即时) 上下文窗口限制(记忆、成本) 3推理能力 大模型的三层能力 1语言能力:理解和生成 2知识能力 幻觉(生成不符合事实的内容) 知识库限制(公开、私有、即时) 上下文窗口限制(记忆、成本) 3推理能力 生成模型与推理模型的适用场景 比较项生成模型(GPT4o、DeepSeekV3)推理模型(GPTo3、DeepSeekR1) 模型定位 专注于通用自然语言处理,多模态能力突出,适合日常对话、侧重于复杂推理与逻辑能力,擅长数学、编程和自然语言推理任务,适合高内容生成、翻译以及图文、音频、视频等信息处理。难度问题求解和专业领域应用。 在日常语言任务中表现均衡,但在复杂逻辑推理(如数学题 推理能力在复杂推理任务表现卓越,尤其擅长数学、代码推理任务。求解)上准确率较低。 当前主要支持文本输入,不具备图像处理等多模态能力;未来可能通过社区 多模态支持支持文本、图像、音频乃至视频输入,可处理多种模态信息。 贡献扩展相关功能。 应用场景 用户交互体验 适合广泛通用任务,如对话、内容生成、多模态信息处理以更适合需要高精度推理和逻辑分析的专业任务,如数学竞赛、编程问题和科及跨语言交流;面向大众市场和商业应用。学研究;在思路清晰度要求高的场景具有明显优势,比如采访大纲、方案。 提供流畅的实时对话体验,支持多种输入模态;用户界面友可展示部分链式思考过程,便于用户理解推理过程;界面和使用体验具有较好,适合大众使用。高的定制性,但整体交互节奏较慢。 生成模型是玩知识和文字的,推理大模型是玩逻辑和推理的,至于计算问题,还是找计算器吧 推理模型也不是万能的,其幻觉通常比生成模型大,很多不需要强推理的场合还是传统的生成模型比较适合 DeepSeekR1的主要应用场景 推理密集型任务 编程任务中的代码生成、算法设计,媲美Claude35Sonnet。 数学问题求解、科学推理和逻辑分析等需要复杂推理的场景。 长链推理型任务 需要基于大量知识,进行长链推理的复杂任务。 例如:工作方案、科研实验、病理诊断、命理玄学、市场分析、舆情分析、教育教学等。 中文要求高的任务 理解和使用中国文化背景、习惯用语、古文诗词如生成春联。优于 ChatGPT的中文能力。 这一部分用DeepSeekV3也可以做到。 DeepSeekR1应用场景举例 具体内容可以参考AI肖睿团队的《提示词工程和场景落地》 大模型的提示词工程:多变、规律、衰落 清晰的表达! 把AI当人看! 对于推理模型(R1),少指手画脚! 具体内容可以参考AI肖睿团队的《提示词工程和场景落地》 1DeepSeek提示词技巧:真诚直接 传统DeepSeek 你现在是一个新能源汽车的市场研究分析师,这里有一份调研报告总结需要写成周报,请按周报的格式帮我完成并进行润色,不少于500字。 帮我把这份报告包装一下,我要写成周报给老板看,老板很看重数据。 2DeepSeek提示词技巧通用公式 我要(做),要给用,希望达到效果,但担心问题 例如:我要做一个从北京到日本的旅游攻略,要给爸妈用,希望让他们在日本开心的玩20天,但我担心他们玩的累,腿和腰不太好 先抓住总原则 全面非常考虑o正式 回答 2DeepSeek提示词技巧通用公式 任务背景 做什么给谁用 目标负面限定 期望效果担心的问题 “内心戏” 2DeepSeek提示词技巧通用公式 DeepSeek输出的 日程安排清晰明确贴心准备清单 甚至细致考虑到了每日5000步 3DeepSeek提示词技巧说人话 适合场景:科研,了解新事物 为了避免DeepSeek的回答过于官方、专业,可以尝试这