您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[广州市基础地理信息中心]:规划和自然资源行业应对DeepSeek浪潮的思考 - 发现报告

规划和自然资源行业应对DeepSeek浪潮的思考

AI智能总结
查看更多
规划和自然资源行业应对DeepSeek浪潮的思考

绩效管理实施过程KPI与BSC广州市基础地理信息中心何正国中国城市规划学会城市规划新技术应用专业委员会 DS影响千行百业 大模型技术原理二 四横三纵应对路径三 未来展望与思考四 一、DeepSeek影响千行百业 1.接入DeepSeek热潮2.对千行百业的影响 1、三大科技巨头同日接入DeepSeek 1月31日,英伟达、亚马逊和微软这三大美国科技巨头在同一天宣布接入DeepSeek的大模型。英伟达将这一模型应用于其GPU加速卡和数据中心中以提供更高效的计算能力;而亚马逊则利用自身的云计算平台优势来推广该模型的使用;至于微软将其集成到现有的软件产品和服务中去以增强用户体验。 1、中国基础电信运营商接入DeepSeek 2月1日:中国电信“息壤”平台接入,华为昇腾云服务部署推理服务。2月3日:中国联通“星罗”平台集成,覆盖270+骨干云池。2月5日:中国移动适配全版本模型,火山引擎支持多尺寸部署 1、千行百业深度拥抱DeepSeek 截至2025年3月,已有超过百家国内外企业宣布接入DeepSeek,覆盖政务、互联网、制造业、汽车、医疗、能源、金融、手机、教育、科技等多个领域,形成从底层算力到终端应用的完整生态闭环。 1、DeepSeek赋能政务效率提升 自2025年2月以来,北京、广东、江西、新疆等省市相继宣布接入DeepSeek大模型,通过智能导办、工单处理、公文写作等场景创新,推动政务服务从“人工密集型”向“数据智能型”转型。 2、技术普惠:让AI不再是巨头的专属工具 DeepSeek大模型正以“低成本、高性能、开源化”的创新路径,打破技术垄断壁垒,推动AI从巨头专属走向全民共享。其技术突破不仅重塑了全球AI竞争格局,更通过生态赋能为发展中国家提供了技术追赶的新机遇。 2、行业重构:从效率优化到模式改变 DeepSeek通过“技术穿透、数据觉醒、模式重构”的三重跃迁路径,其核心价值不仅在于单点效率提升,更在于通过AI与产业场景的深度融合,重塑行业决策底层逻辑。 二、决策模式从经验驱动向“数据+ AI”协同驱动转变 一、在行业应用方面,DeepSeek成效显著 制造业中,汽车设计仿真迭代加快,零部件参数优化从月级缩至天级,研发周期缩短超50%;医疗领域,医学影像检出率提升20%,药物研发靶点筛选效率突破,研发周期缩至传统模式的三分之一。 2、提振算力产业链:助力国产算力成长 DeepSeek高效算法助力国产芯片商用,性能提升,相关企业股价上涨,中下游也各有积极表现。资本市场投资逻辑转变,转向聚焦技术落地效能与商业变现能力的理性回归。 一、算力产业链:让国产算力“能用、好用” 二、资本市场:“砸钱堆参数”转向“解决实际问题” 投资逻辑彻底转变,过去资本追捧“万亿参数”的大模型竞赛,如今聚焦“能否落地赚钱”。寒武纪、海光信息等国产算力企业利润涨超50%,估值从30倍跃升至80倍,成资本市场新宠。 DeepSeek高效算法助力华为昇腾、寒武纪等国产芯片商用,性能达国际60%以上,相关企业股价两月涨超30%。中游:超算及地方平台接入技术,中小企业算力成本降。下游:带AI功能手机销量涨120%。 二、大语言模型技术原理 1.语言模型概述2.Transformer结构3.语言模型构建流程 人工智能核心要素 算法是指解题方案的准确而完整的描述,是一系列解决问题的清晰指令,算法代表着用系统的方法描述解决问题的策略机制。简单来理解,算法就是解决问题的方法和步骤。 算力是指计算机的处理的能力,由于深度学习的算法,涉及非常多的参数(不同功能的AI算法参数的个数是不同的),有的AI算法的参数达到几千亿上万亿。 数据是用于训练AI的,也就是AI算法通过大量的数据去学习AI中算法的参数与配置,使得AI的预测结果与实际的情况越吻合。这里说的数据是指经过标注的数据,不是杂乱的数据。所谓经过标注的数据是指有准确答案的数据。 1、语言模型概述 如果人工智能想要获取知识,就必须懂得理解人类使用的不太精确、可能有歧义、混乱的语言。 1、语言模型概述 语言模型(LanguageModel,LM)目标是建模自然语言的概率分布词汇表V上的语言模型由函数P(w1w2...wm)表示,表示词序列w1w2...wm作为一个句子出现的可能性大小。对于任意词串w1w2...wm∈V+,则有P(w1w2...wm)⩾0,并且对于所有词串,函数P(w1w2...wm)满足归一化条件: 由于联合概率P(w1w2...wm)的参数量十分巨大,直接计算P(w1w2...wm)非常困难。如果把w1w2...wm看作一个变量,那么它具有|V|m种可能。 按照《现代汉语词典(第七版)》包含7万词条,句子长度按照20个词计算,模型参数量达到7.9792*1096的天文数字。 1、语言模型概述 为了减少P(w1w2...wm)模型参数量,可以利用句子序列通常情况下从左至右的生成过程进行分解,使用链式法则得到: 由此,w1w2...wm的生成过程可以看作单词逐个生成的过程。首先生成w1,之后根据w1生成w2,再根据w1和w2生成w3,以此类推,根据前m − 1个单词生成最后一个单词wm 1、语言模型概述 语言模型训练就是要学习词、句内在的语言模式和语言关系,对这种关系进行建模。 学习语义关系 学习语言模式 理解词语含义:大模型通过大量文本中的使用场景来理解词语含义。比如,当看到“苹果”一词频繁与水果、食物、红色的圆形物体等描述相关联时,模型就能逐渐明白“苹果”指的是一种具体的水果。 观察词语顺序:通过大量文本如“我爱吃饭”、“他喜欢跑步”等,识别出主语通常在句首,动词居中,宾语在句尾的基本句子结构。 分析句子语义:以“猫在桌子上”为例,模型能识别出“猫”是主体,在……上”表示位置“关系,“桌子”是位置的对象,从而理解句子所表达的空间关系。 统计词语搭配:模型统计词语的搭配频率,比如“美丽”常与“花朵”、“风景”相伴,“快速”则常与“奔跑”、“行驶”等词搭配。这一过程帮助模型理解词语间的搭配习惯,从而判断哪些词语组合更为合理,形成对语言模式的认识。 学习上下文关系:例如,在“小明生病了,所以他没去学校”这句话中,模型通过“所以”以及前后句子的内容,能够明白生病是没去学校的原因,这是因果关系的一种体现。同时,模型也能理解转折、并列等其他语义关系。 1、语言模型概述 Token:自然语言中的最小单元 句子:我是一名AI工程师。字:我/是/一/名/ A / I /工/程/师/。词:我/是/一名/ AI /工程师/。Bi-Gram:我是/是一/一名/名A / AI / I工/工程/程师/师。Tri-Gram:我是一/是一名/一名A /名AI / AI工/ I工程/工程师/程师。/师。 WordEmbedding:将词映射成向量 AI[0.70753, 0.93948, 0.00133, 0.70741, 0.79584, 0.30115, 0.28655, 0.55261, ...]工程师[0.73236, 0.73890, 0.64466, 0.54484, 0.80536, 0.46147, 0.96903, 0.88725, ...]是[0.41284, 0.41901,0.37967, 0.90657, 0.99241, 0.05147, 0.85335, 0.29367, ...]我[0.69308, 0.84442, 0.21239, 0.55487, 0.08609, 0.52786, 0.55209, 0.43071, ...]一名[0.54362, 0.46765, 0.37969, 0.55248, 0.90865, 0.08897, 0.34130, 0.29651, ...]................................................................................... 1、语言模型概述 只看下一个词:「我喜欢」概率:0.3「我想」概率:0.4 多看一个词: 「我喜欢你」概率:0.3×0.8=0.24「我喜欢吃」概率:0.3×0.1=0.03「我想你」概率:0.4×0.5=0.2「我想去」概率:0.4×0.3=0.12 2、Transformer结构 语言模型的目标是建模自然语言的概率分布,在自然语言处理研究中具有重要的作用,是自然语言处理的基础任务之一。包括:n元语言模型、神经语言模型、预训练语言模型。 随着基于Transformer的各类语言模型的发展及预训练微调范式在自然语言处理各类任务中取得突破性进展。 Transformer结构是由谷歌在2017年提出并首先应用于机器翻译 Transformer结构完全通过注意力机制完成对源语言序列和目标语言序列全局依赖的建模。如今,几乎全部大语言模型都是基于Transformer结构的。 2、Transformer结构 基于Transformer的编码器和解码器结构如图所示 •左侧和右侧分别对应着编码器(Encoder)和解码器(Decoder)结构,它们均由若干个基本的Transformer块(Block)组成(对应图中的灰色框)•每个Transformer块都接收一个向量序列作为输入,并输出一个等长的向量序列作为输出•yi是当前Transformer块对输入xi进一步整合其上下文语义后对应的输出。 2、Transformer结构 •注意力层:使用多头注意力(Multi-Head Attention)机制整合上下文语义,它使得序列中任意两个单词之间的依赖关系可以直接被建模而不基于传统的循环结构,从而更好地解决文本的长程依赖问题。 •位置感知前馈层(Position-wise FFN):通过全连接层对输入文本序列中的每个单词表示进行更复杂的变换。 •残差连接:对应图中的Add部分。它是一条分别作用在上述两个子层中的直连通路,被用于连接两个子层的输入与输出,使信息流动更高效,有利于模型的优化。 •层归一化:对应图中的Norm部分。它作用于上述两个子层的输出表示序列,对表示序列进行层归一化操作,同样起到稳定优化的作用。 3、语言模型构建流程 3.1、预训练阶段 预训练(Pretraining)阶段需要利用海量的训练数据,数据来自互联网网页、维基百科、书籍、GitHub、论文、问答网站等,构建包含数千亿甚至数万亿单词的具有多样性的内容。 利用由数千块高性能GPU和高速网络组成超级计算机,花费数十天完成深度神经网 络参数训练,构建基础语言模型(BaseModel) 3.2、有监督微调阶段 有监督微调(Supervised Finetuning),也称为指令微调,利用少量高质量数据集合,包含用户输入的提示词和对应的理想输出结果。用户输入包括问题、闲聊对话、任务指令等多种形式和任务。 例如:提示词(Prompt):中山大学有几个校区? 理想输出:中山大学现有5个校区,分别是广州校区南校园、广州校区北校园、广州校区东校园、珠海校区和深圳校区。其广州校区南校园是中山大学的主校区,广州校区北校园原为中山医科大学所在地,广州校区东校园位于广州市番禺区大学城外环东路132号,是中山大学较为年轻的校区之一。 3.3、奖励建模阶段 奖励建模(Reward Modeling)阶段的目标是构建一个文本质量对比模型,对于同一个提示词,SFT模型给出的多个不同输出结果的质量进行排序。奖励模型(RM模型)可以通过二分类模型,对输入的两个结果之间的优劣进行判断。RM模型与基础语言模型和SFT模型不同,RM模型本身并不能单独提供给用户使用。 3.4、强化学习阶段 强化学习(Reinforcement Learning)阶段根据数十万用户给出的提示词,利用前一阶段训练的RM模型,给出SFT模型对用户提示词补全结果的质量