行业研究公司研究宏观策略财报招股书会议纪要海南封关低空经济 DeepSeek AIGC 大模型

大模型：从单词接龙到行业落地

信息技术2025-04-18-浙江大学J***

AI智能总结

人工智能前夜：图灵测试
图灵测试由艾伦·图灵提出，通过让测试者与人类和机器进行交互，判断回答是否无法区分，以此评估机器是否具备人类智能。测试中，机器需在文学、数学、逻辑等方面表现出色，但早期机器仅能处理简单任务（如写诗、计算、下棋）。
大模型与图灵测试
大模型（如LLM）通过Transformer架构计算条件概率，实现类似“单词接龙”的生成机制，逐步提升在复杂任务中的表现，但仍面临泛化能力不足等问题。
大语言模型：单词接龙
大模型通过条件概率（P(token_i | context)）生成文本，将各类下游任务（如景点查询）转化为单词接龙形式，实现端到端学习。相比传统机器学习，该方法无需大量标注数据，但依赖标注成本高的训练数据。
预训练-微调：机器学习新范式
预训练阶段利用海量无标注数据（网页、书籍等）学习通用知识，微调阶段通过监督微调（SFT）和指令微调优化特定任务性能。预训练优势在于数据规模大（如GPT-3使用45TB数据），能学习物理世界知识和人类语言模式。
大模型的训练流程
训练流程包括预训练、微调（SFT、指令微调、强化学习RLHF），其中RLHF通过人类评分优化模型，提升安全性和流畅性。模型输出效果受限于上下文提示（Prompt）的质量。
大模型的三大问题
- 幻觉：模型可能输出错误或过时信息（如2024年欧洲杯结果）。
- 过时：模型知识截止于训练时间（如2021年），无法更新。
- 偏见：模型可能存在性别、语言等偏见。
检索增强生成（RAG）
RAG通过外部数据库解决幻觉和过时问题，利用LLM生成查询并检索信息，提升可解释性和长尾知识覆盖。优势在于保持信息及时性、明确来源，并支持轻量级私有化部署。
思维链“咒语”与“快思考”模型
大模型通过思维链（如“咒语”）进行推理，但可能被误导。实验对比“快思考”（直觉）和“慢思考”（理性）模型，发现慢思考依赖主动控制，更适合复杂任务。
推理时扩展（Test-time Scaling）
通过扩展推理时计算资源（如增加token数），模型准确率可提升。例如，DeepSeek R1通过“wait”引导模型自我反思，效果显著。
强化学习与监督学习
监督学习依赖标注数据，但长思维链标注成本高；强化学习通过交互学习最优策略，但奖励信号稀疏。DeepSeek R1采用基于规则的奖励模型（准确性、格式奖励）优化策略。
大模型在医疗领域的应用
- 癫痫预测：Brant模型在颅内脑电数据（SEEG）上预训练，实现个体和任务泛化，优于传统端到端模型。
- 电力系统：PowerPM模型通过层次图和时序依赖建模，在电力负荷预测、窃电检测等44个任务上有效，支持跨行业应用。
行业差异与泛化能力
不同行业（如纺织、农业、建筑）用电行为差异显著，需针对性建模。大模型通过预训练捕捉行业关系，实现轻量级垂域部署。

杨洋，浙江大学教学用途声明：本PPT包含部分来源于网络的素材，仅供教学使用，非商业用途，版权归原作者所有人工智能前夜：图灵测试 o图灵测试会在测试人在与被测试者(一个人和一台机器)隔开的情况下，通过一些装置（如键盘）向被测试者随意提问。 o问过一些问题后，如果超过30%的答复不能使测试人认出哪个是人、哪个是机器的回答，那么这台机器就通过了测试，并被认为具有人类智能。人工智能前夜：图灵测试 o在提出图灵测试的《计算机器与智能》一文里，图灵描述了想象中未来的智能计算机测试可能的样子（人提出问题，计算机回答）： Q：请给我写一首有关福思桥（ForthBridge）主题的十四行诗。A：这种事情别找我。我从来都不会写诗。文学 Q：34957+70764等于多少？A：（停顿了约30秒后再给出答案）105621。数学 Q：在国际象棋中，我在K1处有一个王，除此之外没有棋子了。你在K6处有一个王且在R1处有一个车。现在你会怎么走？逻辑 A：(15秒停顿后)将车移动到R8，然后将死。大模型与图灵测试数学文学逻辑大语言模型：单词接龙大语言模型：单词接龙大语言模型：单词接龙大语言模型：单词接龙大语言模型：单词接龙单词接龙：通过条件概率计算实现 o给定上下文（Context），计算下一个生成词（Token）的概率 o根据所计算的条件概率进行采样获得生成词，拼接至上下文末尾，并预测下一个生成词，直至生成一个结束符（End-of-Sequence,EOS） o利用Transformer计算条件概率将各类下游任务转化为单词接龙输入：景点（如断桥残雪）输出：该景点所在城市传统机器学习模型拆分成一连串的单词接龙为什么单词接龙？针对特定任务的端到端学习训练数据：需要标注，成本高 <断桥残雪，杭州>，<长城，北京>，<故宫，北京>…标注输入数据预训练-微调：机器学习新范式预训练杭州是中国浙江省的省会城市，是一座历史悠久且富有文化的城市，被誉为“人间天堂”。它位于中国东南沿海的长江三角洲经济区，拥有丰富的自然景观和人文遗产。杭州以西湖著称，西湖是中国著名的风景名胜，也被列入了世界文化遗产。除了西湖，杭州还有其他许多著名的景点，如京杭大运河、钱塘江、灵隐寺、断桥等。采样很多句子做单词接龙如何培育小火龙，成为宝可梦世界冠军？如何培育小火龙，成为宝可梦世界冠军？端到端学习（应试教育）如何培育小火龙，成为宝可梦世界冠军？ 1、多功能火恐龙2、灵活运用技能预训练（素质教育）预训练的优势：从训练的角度预训练数据：网页、书籍、新闻、对话等多种类型的无标注数据杭州是中国浙江省的省会城市，是一座历史悠久且富有文化的城市，被誉为“人间天堂”。它位于中国东南沿海的长江三角洲经济区，拥有丰富的自然景观和人文遗产。杭州以西湖著称，西湖是中国著名的风景名胜，也被列入了世界文化遗产。除了西湖，杭州还有其他许多著名的景点，如京杭大运河、钱塘江、灵隐寺、断桥等。 10月下旬，这则消息引发广泛关注。玛莎拉蒂母公司斯泰兰蒂斯集团15亿欧元入股浙江零跑科技股份有限公司，10月下旬，这则消息引发广泛关注。拥有自研智能动力、智能网联、智能驾驶三大核心技术，工厂预计年产可达70万辆……在零跑科技创始人朱江明看来，这次强强联合，将是企业欧洲布局的重要一步。传统NLP任务鲜有超过1GB的标注数据用于模型训练GPT3使用45TB数据进行预训练大模型从海量无标注数据中学习了物理世界的知识以及人类遣词造句的模式预训练的优势：从应用的角度大模型的训练监督微调（SFT）：通过经标注的[输入-输出]对数据调整模型部分参数，优化特定任务性能指令微调（InstructionTuning）：通过[指令-输出]对使模型泛化到未见过的指令<5% 大模型的训练监督微调（SFT）：通过经标注的[输入-输出]对数据调整模型部分参数，优化特定任务性能指令微调（InstructionTuning）：通过[指令-输出]对使模型泛化到未见过的指令强化学习（RLHF）：通过人类对回答的评分训练奖励模型，再用强化学习对齐人类偏好（如安全性、流畅性等）如何让大模型输出更好的结果？如何让大模型输出更好的结果？如何让大模型输出更好的结果？如何让大模型输出更好的结果？大模型的三大问题幻觉过时 “在一个黑暗的夜晚，古堡里的居民们聚在壁炉旁...” 2024年欧洲杯西班牙赢了几场比赛？ “..突然，一群穿着未来科技装备的士兵从天而降，他们携带着激光枪，手中高举光剑，准备与古堡中的恐龙进行战斗。” 很抱歉，作为一个基于GPT-3.5的语言模型，我的知识截止时间是2021年无法提供2024年欧洲杯的最新情况检索增强生成（RAG）使用案例 RAG的优势明确信息的来源，提升可解释性幻觉利用外部数据源补充长尾知识偏见利用互联网保持信息及时性过时实现轻量级的垂域私有化部署思维链“咒语” 思维链背后的启示 “快思考”模型答案生成方式： “慢思考”模型答案生成方式： Pr(答案|问题)问题---->答案 Pr(答案|问题，思考)问题---->思考---->答案推理时扩展（Test-timeScaling） o扩展大规模自监督预训练阶段的计算量→扩展推理时的计算资源以获得更好的结果 S1-32B（SFT+budgetforcing）:通过接龙”wait”引导模型进行自我反思模型准确率随着推理时token数的增加而提升如何训练大模型自主生成思维链监督学习Vs.强化学习监督学习：通过标注数据学习输入到输出的映射，本质上是在模仿人类标注者的决策行为挑战： o长思维链过程标注难度大、成本高；o能够正确解题的思维链并不唯一，人工标注的COT甚至不一定是最优解监督学习Vs.强化学习强化学习如何学习策略 DeepSeekR1 o基于规则的奖励模型 o准确性奖励（Accuracyrewards）：用于评估回答是否正确。例如，在数学题中验证模型解答的正确性；在LeetCode编程题中，使用编译器执行生成的代码，并基于测试用例生成反馈。 o格式奖励（Formatrewards）：强制模型将推理过程置于<think>和</think>标签之间，以确保输出结构符合要求。用于训练R1的模板评审叮当：大模型赋能智慧评审 n基于LLM的智慧评审 n『评审叮当』平台基于大语言模型技术，提供多专业、多类别项目与多环节的智能评审助力，有效提升项目质量管理，缓解专家压力。 n提供：领域规范知识仓库问答、专业项目合规性预审、申报材料智慧评审、项目智能查重等多项技术支持。时间序列数据 40过去应用场景：癫痫预测应用场景：癫痫预测问题构建传统的端到端学习个体层面的泛化任务层面的泛化领域层面的泛化有待深入研究广泛的现有工作脑信号的扩散 ❑脑信号的扩散：脑信号被认为在不同脑区之间传播。 –脑波活动的传播路径是统一建模脑信号的关键因素。 Brant：面相颅内脑信号的基础模型 •Brant1.0在一个1.01TB的颅内数据集上进行了预训练•能够捕捉长期时间依赖性和空间相关性•在个体水平和任务水平上都具有泛化能力 49•DaozeZhang*,ZhizhangYuan*,YangYang,JunruChen,andYafengLi.Brant:FoundationModelforIntracranialNeuralSignal.InNeurIPS,2023. 模型规模 •与现有脑信号模型的比较实验结果 •下游任务：预测、插补、癫痫检测•基线：对脑信号/一般时间序列进行预训练电力系统中的挑战不同行业之间的差异 PowerPM：电力系统基础模型通过捕捉行业之间的上下游关系，基于海量电力数据（电量、负荷、线损），训练电力领域的时序基础模型PowerPM，模型参数量为10亿。 54•ShihaoTu,YupengZhang,JingZhang,ZhendongFu,YinZhang,andYangYang.PowerPM:FoundationModelforPowerSystems.InNeurIPS,2024. 实验结果 •实验验证了统一模型在44个不同任务上的有效性，这些任务可以分为16个主要类别。 -面相（独占用户/不同地区/城市的公共用户）的电力负荷、电力消耗和太阳能发电进行预测/填补 -窃电检测-独居老人检测-高功率电器检测-用户性别分类-用户年龄分类-家庭结构分类

点击免费查看完整报告

你可能感兴趣

大模型：从单词接龙到行业落地

你可能感兴趣

大模型：从单词接龙到行业落地

计算机行业深度研究报告：海外AI应用：从大模型到各领域落地

2025从技术突破到场景落地大模型发展图谱与DeepSeek创新应用报告

从技术突破到场景落地：大模型发展图谱与DeepSeek创新应用-中山大学

计算机行业点评：WAIC2024：从大模型到具身智能