您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。 [亚信科技&清华AIR]:2025年DeepSeek赋能自智网络高阶演进评测报告 - 发现报告

2025年DeepSeek赋能自智网络高阶演进评测报告

信息技术 2025-03-01 - 亚信科技&清华AIR 徐雨泽
报告封面

本报告结合自智网络高价值场景业务需求,从语义解析、意图识别、推理能力等多个维度对DeepSeek等几款典型大模型进行了评测,这是第一份聚焦大模型赋能自智网络领域的评测报告,旨在为自智网络向高阶演进提供科学依据和技术参考,推动通信行业智能化转型与可持续发展。 作者: 亚信科技(中国)有限公司 李志琦、杨先磊、张磊、叶晓舟、杜大江、王志刚、张光辉、陈赫赫、李新建、柏杨、鹿岩、朱多智、欧阳哗entialAsialnfo 清华大学智能产业研究院 刘云新、詹仙园、李元春、李元哲、王蔚峻、张策、朱翔宇、冷超 引用本评测报告 《DeepSeek赋能自智网络高阶演进评测报告》李志琦、杨先磊、刘云新等,2025年2月。AsialnfoConfidential TestReport-DeepSeekEmpowerstheAdvanced EvolutionofAutonomousNetworks, Ye Ouyang, Yunxin Liu, et al, 2025.2. 目录 1.DeepSeek简介.2.自智网络向L4高阶演进3.评测报告目的...64.亚信科技高阶自智网络产品65.DeepSeek赋能自智网络的测试方案 5.1测试目标 5.2测试环境搭建 5.2.1硬件环境5.2.2软件环境Isialnfo 5.3DeepSeek相关通用能力 5.3.1自智网络场景语义解析75.3.2自智网络意图识别.5.3.3自智网络业务场景推理能力...95.3.4自智网络业务处理自主规划...105.3.5自智网络专业知识检索.115.3.6自智网络场景文本生成.11 5.4高价值测试场景选取...12 6.基于典型高价值场景的测试分析,.13 6.1场景1、业务编排智能设计.13 6.1.1业务编排智能设计场景说明与测试描述...136.1.2业务编排智能设计测试数据结果146.1.3业务编排智能设计测试结果分析,14 6.2场景2、网络数据查询分析.16 6.2.1网络数据查询分析场景说明与测试描述6.2.2网络数据查询分析测试数据结果..176.2.3网络数据查询分析测试结果分析 6.3场景3、网络拓扑生成, 6.3.1网络拓扑生成场景说明与测试描述196.3.2网络拓扑生成测试数据结果.196.3.3网络拓扑生成测试结果分析,..20 6.4场景4、网络故障根因分析,onfiden 6.4.1网络故障根因分析场景说明与测试描述.21.6.4.2网络故障根因分析测试数据结果22 6.4.3网络故障根因分析测试结果分析 6.5场景5、IP网配置生成.25 6.5.1IP网配置生成场景说明与测试描述.256.5.2IP网配置生成测试数据结果.256.5.3IP网配置生成测试结果分析.26 6.6.1一线装维服务场景说明与测试描述.276.6.2一线装维服务测试数据结果.286.6.3一线装维服务测试结果分析...29 6.7场景7、感知诊断分析.30sialnfo 6.7.1感知诊断分析场景说明与测试描述.306.7.2感知诊断分析测试数据结果.316.7.3感知诊断分析测试结果分析32 6.8场景8、无线投诉处理,..33 6.8.1无线投诉处理场景说明与测试描述..336.8.2无线投诉处理测试数据结果....346.8.3无线投诉处理测试结果分析..34 7.自智网络场景评测结果分析...36 10.联系我们AsialnfoConfider 摘要 DeepSeekV3和R1版本因其高性能、开源创新、低成本等优势,迅速成为行业热点。亚信科技自主研发的渊思慧见·高阶自智网络产品(AISWareANEvo1)已与DeepSeekV3、R1完成全栈适配。为了评估DeepSeek大模型在赋能自智网络中的技术适配性与应用潜力,落实智能化转型的战略部署,我们结合术评测。本测试涵盖了意图理解、自主规划、推理能力等多个维度,结果显示DeepSeek在多个方面表现出色,但在响应速度与效率等方面仍有提升空间,通过进一步优化,DeepSeek有望为自智网络的高阶演进提供更有力的技术支撑。Asialnfo 由于大模型技术选代迅速且应用场景复杂多样,本报告结论仅适用于当前测试环境。同时,因团队能力及资源限制,报告可能存在分析不足之处,欢迎业界同仁提出宝贵意见以完善后续研究。 DeepSeek是一家专注于通用人工智能(AGI)研究的中国科技公司:DeepSeek由幻方量化创立,致力于开发先进的大语言模型(LLM)和相关技 DeepSeek的核心技术结合了大语言模型(LLM)与搜索引擎能力,通过实时检索增强模型的知识库,解决传统LLM的幻觉、时效性不足等问题。其模型维表现与OpenAI的GPT模型相当,在某些领域已经超越,但其训练成本只有GPT-4的10%,高性价比、成本优势以及开源策略推动了其迅速商业化。 DeepSeek的模型广泛应用于自然语言处理、机器学习、编码任务等多个领域,提供智能对话、准确翻译、创意写作、高效编程、智能解题和文件解读等多种功能,其开源策略促进了全球AI开发者社区的协作和发展。 总之,DeepSeek以其高效、开源的大型语言模型,在AI领域引起了广泛Confident 2.自智网络向L4高阶演进 自智网络的目标是要构建全生命周期端到端的自动化、智能化的网络运维能在面临诸如系统人机交互方式单一、缺乏认知理解和逻辑推理能力以及通用知识缺乏,泛化能力弱等一些列问题,而DeepSeek以出色的意图理解能力、新型人机交互方式以及专业领域知识增强泛在能力等,为自智网络向高阶演进提供了强大的技术支撑。AsialntnfidentiaConfiden 3.评测报告的 本次评测的主要目的是分析DeepSeek在自智网络高价值场景中的适配能力,探索其在网络业务编排、网络数据查询、故障定位和投诉处理等关键场景的应用潜力,减少其它厂家评测的复杂度,为行业应用提供实践经验,促进通信行业的技术普惠,提升通信行业的整体竞争力。Asialnfo 4.亚信科技高阶自智网络产品Con 亚信科技高阶自智网络产品(AISWareANEvo)是亚信科技利用大模型技术、面向自智网络高阶演进打造的副驾与智能体工具集,自智网络副驾工具主要辅助运维人员完成网络运维工作,提升网络运维效率,自智网络智能体主要面向业务场景实现感知分析到决策执行的业务目标自主闭环。dential ANEvo使用商用或开源大模型作为通用基础大模型,本次我们将接入DeepSeek,用于测试它在自智网络场景中的具体表现。 5.DeepSeek赋能自智网络的测试方案测试目标 5.1 具体测试目标包括以下几个方面: 在自智网络的应用场景中,测试并验证DeepSeek语义解析、推理能力、意图识别、自主规划、知识检索、文本生成方面的能力,验证DeepSeek在自智网络应用中的实用性;完成对几款典型大模型能力对进对比,得出当前自智网络各应用场景中模型的适用性;onfiden 记录模型在不同任务下的响应时间,评估其效率是否满足实际业务需求。 通过以上测试目标的设计,本方案力求全面、客观地反映DeepSeek大模型在自智网络中的适用性和优势,为其进一步优化和实际部署提供参考依据。 5.2测试环境搭建 5.2.1硬件环境 本次测试采用NVIDIAA80080GBGPU,共16块GPU显卡,其主要规格如下: 核心架构:GA100,基于Ampere架构。 CUDA核心数量:6912。 显存容量:80GBHBM2e。Confidential 显存带宽:1935GB/sc 功耗:最大250W。 接口:PCle4.0x16。 软件环境5.2.2 测试环境的软件配置如下: VLLM:高效的语言模型推理引擎,支持多种语言模型。PyTorch:深度学习框架,用于模型训练和推理。FlashAttention:优化的注意力机制实现,提升Transformer模型的性能。Transformers:提供预训练模型库,支持多语言和多模态任务。 5.2.3大模型选择 本次测试选取了5种具有代表性的大模型,涵盖不同规模、架构和应用场fident DeepSeek-R1DeepSeek-V3从主流开源模型、商用模型中选择3个典型模型:C/D/E(C模型为现有生产调试后的模型)infofidential 5.3LDeepSeek相关通用能力 基于自智网络的应用场景当前的实际需求,本测试主要对以下6项能力展开测试,自智网络业务场景中使用的大模型语义解析、意图识别、推理能力、自主规划、知识检索及文本生成能力。下面对功能需求项的测试目标、测试方法和测试评价指标进行说明。AsialConfiden 5.3.1自智网络场景语义解析 多轮对话理解 1)测试目标:测试模型在多轮对话中的语义解析能力,评估其是否能准确理解上下文并生 成合适的回答。 2)测试方法: 使用多轮对话数据集进行测试,计算模型在语义连贯性上的表现。Asialnfo 3)评价指标: 生成回答与上下文一致的对话数量语义连贯性:×100%总对话数量 准确性:模型是否能准确理解用户意图并提供正确答案。 模型正确回答的问题数量X100%总问题数量 模型完整解决问题的对话数量完整性:×100%总对话数量 说明:通过多轮对话数据集评估模型在复杂对话场景下的表现。重点关注模型是否能够跟踪对话历史并生成连贯、合理的回复。。同义词与近义词识别dentia 1)测试目标: 测试模型是否能识别同义词或近义词,并在不改变语义的情况下做出反应。 2)测试方法: 使用包含同义词的问答对,考察模型在同义词替换后是否能正确理解问题。 3)评价指标: 识别率:模型对同义词和近义词的识别能力。 模型正确识别同义词或近义词的问题数量识别率×100%总问题数量模型在替换同义词后是否仍能正确理解问题。 语义一致性:模型替换同义词后仍正确理解的问题数量语义一致性×100%ential总问题数量说明:使用包含同义词的问答对测试模型的表现,考察其在语义变化下的鲁 棒性。Asialnfo 5.3.2自智网络意图识别 任务导向对话意图识别 1)测试目标: 评估模型在任务导向型对话中识别用户意图的准确性,如查询网元数据、故障定位等。2)测试方法:nTo 在给定任务场景下,比较模型识别用户意图的准确性。 3)评价指标: 模型正确识别意图的次数意图识别准确率×100%总测试次数 说明:通过给定的任务场景(如查询网元数据、故障定位)评估模型在实际业务中的意图识别能力。 。实体抽取与槽位填充 1)测试目标: 的能力。 2)测试方法: 对比模型抽取的实体与标准答案,评估其准确性。 3)评价指标:提取准确率:模型是否能正确提取关键信息(如时间、地点、网元名称 模型正确提取的实体数量提取准确率×100%标准答案中的实体总数 覆盖范围:模型是否能全面提取所有相关实体。模型提取的实体种类数量覆盖范围<100%标准答案中的实体种类总数 说明:对比模型输出的实体与标准答案,评估其在实体抽取上的精确度和召回率。· 意图与实体关联识别 1)测试目标: 测试模型是否能在识别用户意图的同时,正确关联到相应的实体。 2)测试方法:考察模型在查询特定信息时,是否能正确识别并关联相关实体。 3)评价指标: 关联准确性:模型是否能正确将意图与相关实体关联。模型正确关联意图与实体的次数关联准确性三×100%1总测试次数 说明:通过特定查询场景测试模型在复杂任务中的意图与实体关联能力。 5.3.3自智网络业务场景推理能力 ·常识推理 1)测试目标: 测试模型在非显性信息和隐含信息场景下,根据常识推断合理答案的能力。 2)测试方法: 提供常识性问题,评估模型的推理表现。 3)评价指标: nfide 模型推断出合理答案的问题数量 总问题数量 隐含信息