AI智能总结
版权声明 本白皮书版权属于紫金山实验室及其合作单位所有并受法律保护,任何个人或是组织在转载、摘编或以其他方式引用本白皮书中的文字、数据、图片或者观点时,应注明“来源:紫金山实验室等”。否则将可能违反中国有关知识产权的相关法律和法规,对此紫金山实验室有权追究侵权者的相关法律责任。 编写说明 主要编写单位: 紫金山实验室、江苏省未来网络集团 主要编写人员: 侯聪、张晨、张玉军、高新平、徐政、孙婵娟、芮美芳、杨荣、陈晓波、陈刚、赵芷晴 特别鸣谢(无先后顺序): 苏交科集团、笑领科技、贵州师范大学、江宁数据局新华三、浪潮信息、中兴通讯南京智能计算中心、火山引擎、算力互联、安徽提尔液冷科技天数智芯、沐曦集成电路、燧原科技、昆仑芯科技、海光信息、寒武纪、壁仞科技 前言 自OpenAI问世后,各路大模型如雨后春笋般涌现,它们基于互联网上爬到的数据进行训练,要花费成千上万张GPU资源才能训练出来,这些大模型可以陪人闲聊、回答问题甚至求解方程,但是它无法知道的企业流水线的工艺制造方式、学校对学生的个性培养计划、医院为老人的病症诊疗方案。这些大模型我们称其为“通用大模型”,它知道的很多很杂、但不深不准。如果要让AI真正服务于千行百业,需要的是把“通用大模型”与行业数据充分结合,再通过算力加工成“行业大模型”。“行业大模型”的发展,需要迈过三座大山,一是模型部署太贵,企业要部署一套聪明的大模型动辄要大几百万上千万,二是数据流通不畅,企业的生产数据通过互联网传输既不安全也不高效,三是算力使用不便,国家建设了大量的公共算力却未充分被企业所知所用。 DeepSeek为“行业大模型”的征程开了个好头,它既足够聪明又开源免费,将大模型成本直降到0。模型的问题解决了,数据流通和算力使用的问题又该如何解决?今年春节前后,DS云部署和一体机一时间蔚然成风:云部署基于互联网提供了轻量化的DS服务,但面对B端市场存在着“数据传不出,网络运不动,算力信不过”的众多约束;一体机基于局域网部署本地化的DS设备,可有效解决云部署的上述挑战,但在B端落地应用时则面对着“建设成本高、服务性能僵、模型更新慢”等新的挑战。 为实现云部署与一体机两者优势的“兼而得之”,未来网络联合多方合作伙伴,共同打造了基于算力网加速的DeepSeek行业大模型边云一体化解决方案,可实现全域的算力按需供给、数据可信流转与模型实时同步,有效破解鱼掌难题:(1)高效安全的数据传输,基于确定性网络调度技术,可保障超过1000GB的自动驾驶数据不到5min就传输完毕,而传统网络则需要10天左右,让时间“不耗在路上”;(2)全局协同的资源调度,基于计算存储网络协同调度技术,可根据全网计算资源的动态调度结果自动匹配相应的数据存储与网络传输资源,实现“货朝店走,路随货通”;(3)案前手边的使用入口,基于调度系统边缘接入技术,可通过一体机或更轻量的小盒子实现一键加速全网通达,作为企业接入东数西算的算力阀、算力表,把“路铺到家门口”。 众所周知,东数西算与全国一体化算力网的最终目标,就是让千行百业像用水和用电一样用算。如何实现这个目标?(1)对于用算方而言:回想一下,在通水网之前我们需要找一口水井、买一个水缸,这就类似于当前云计算基于门户网站下单购买算力资源,当通水网之后我们只需要在屋子里面装一个水龙头、装一块水表,这就类似于未来算力网基于算力阀、算力表动态使用算力资源,需要就用不需要就停,用多少付多少,真正实现“最优匹配、按需启停”;(2)对于供算方而言:在通电网之前,水电、风电、轮机、集中式光伏、分布式光伏都有不同的发电技术与电流特性,但经过并网后都将转换至标准电压大小与统一电流特性,当前云计算中业务逻辑复杂难归一,基 于门户下单购买算力资源的方式,就好比用户指定用何种发电技术为自己发电,未来算力网中大语言模型业务逻辑可统一抽象为Token输入输出,基于算力阀、算力表动态使用算力资源,用户无需指定厂商、架构、型号,进而拉动国产算力的充分消纳,真正实现“精准计量、效用付费”。 《DeepSeek行业大模型算力网加速—应用生态白皮书》(简称白皮书)的编制,得到了来自应用场景方、一体机设备厂商、算力服务商、国产芯片厂商等众多合作伙伴的大力支持,白皮书的发布期间正值全国一体化算力网并网、计量等国家标准技术文件的出台制定,希望能够为国家东数西算与全国一体化算力网提供未来网络实践经验,未来能够赋能每个企业都能够拥有自己专属的企业大模型、让各个行业都能发展出领域的行业大模型,走出一条我国特色的AI发展与应用路线。 目录 前言..................................................................................................I目录...............................................................................................IV 一、现状与挑战...................................................................................1 1.1 DeepSeek..................................................................................11.2行业大模型..............................................................................21.3算力网加速..............................................................................4 二、算力网加速解决方案...................................................................6 2.2.1功能架构........................................................................72.2.2组网架构........................................................................92.2.3部署方案......................................................................10 2.3业务流程...............................................................................15 2.3.1推理加速......................................................................152.3.2微调加速......................................................................17 2.4关键能力...............................................................................19 2.4.1极简接入......................................................................192.4.2柔性访问......................................................................212.4.3安全流转......................................................................232.4.4可观可感......................................................................24 三、算力网资源量化测评.................................................................25 3.1测评概述...............................................................................253.2测评环境...............................................................................253.3吞吐测评分析........................................................................273.4时延测评分析........................................................................31四、典型场景与应用案例.................................................................374.1入企——交通规划报告....................................................374.2入企——医疗问答推理....................................................384.3入园——医疗诊断微调....................................................394.4入校——基因检测编辑....................................................404.5政务——政务推理问答....................................................41 一、现状与挑战 1.1 DeepSeek 自2024年3月到2025年3月,我国大模型在一年之内先后完成了从技术(2024.3,Kimi长文本重大升级)——产品(2024.5,豆包上线头条/抖音)——市场(2025.2,DeepSeek现象级爆火)的华丽转身,DeepSeek的“深度慢思考”获得了“全民加速度”。 DeepSeek深度思考的产品能力与国民出圈的市场热度,引发了C端使用DeepSeek的风潮。在DeepSeek之前,业界并非没有开源大模型,但当时它们要么血统不够纯正(如Llama部分开源)、要么智商不够聪明(如Qwen开源小参数)、要么情商不够细腻(如GLM主要2B)。DeepSeek集血统(充分开源)、智商(深度思考)、情商(人文关怀)于一身,一经发布就获得了万千宠爱,加之“东升西落”话题的论战式传播,一时全球震惊。 除了C端出圈以外,DeepSeek开源更为深远的意义在于B端。在DeepSeek之前,私有化部署一套足够聪明的大模型动辄要大几百万上千万,令企业望而却步。而DeepSeek的开源将模型成本直降为0,一时间全行业竞相争用。DeepSeek自身作为通用大模型,它知道的虽多、却杂,但当企业落地应用DeepSeek并将其与自身管理生产经营数据充分结合,就能够让DeepSeek掌握的更深、更准。未来的不久,DeepSeek将不再仅仅是陪人闲聊、回答问题甚至求解方程, 而且它能够知道企业流水线的工艺制造方式、了解学校对学生的个性培养计划、知悉医院为老人的病症诊疗方案,让大模型不仅能够飞入千家万户,更能走进千行百业。 目前,D