热门搜索：

2023人工智能大模型在工业领域知识问答稳定性评测报告

信息技术2023-09-18中国工业互联网研究院起***

中国工业互联网研究院CAII*香港科技大摩新华新华指数ANDTECHNOLOGYXinhua-Indices人工智能大模型在工业领域知识问答：稳定性评测中国工业互联网研究院香港科技大学2023年9月中国工业互联网研究院CAII+前言香港科技大燥UU新华新华指数ANDTECHNOLOXinhua-Indices人工智能大模型作为实现通用人工智能的重要途径，正在对制造业的产业发展和应用模式产生变革性影响。近期中国工业互联网研究院联合香港科技大学、新华指数，共同研究A大模型在工业领域的应用性能、技术架构与标准体系，开发布评测报告工业领域对人工智能大模型的应用稳定性要求极高。人工智能大模型在工业领域应用的稳定性研究对于应用安全性保障、稳健性提升、可信赖性增强、决策优化以及合规性等方面都真有重要的指导意义。本报告聚焦评测大模型在工业领域的知识问答稳定性，通过选取工业领域典型的八大行业，构建基础知识测试集与变体测试集，对国内外具有代表性的A大模型在文法、数据、精简表达、扩充表达四大类八个子维度展开深入评估。选取性能前五名的模型进行公布，开发布前十名的数据，供业界进行参考本报告评测结果虽经专家组认真论证，但因大模型送代速度快，评测结果仪适用于测试期间。报告难免存在分析结论片面与不足欢迎大家批评指正2 中国工业互联网研究院CAI*目录cninaAcademyorlndustnalinterne香港科技大票HEHON新华社新华指数ANDTECHNOLOGYVERSITYOFSCIENCEXinhua Indices01第一部分评测规则02第二部分评测结果03第三部分总结3 中国工业互联网研究院CAII*工业领域知识问答稳定性评测方法香港科技大屏HEHONGKONG新华新华指数ANDTECHNOLOGYUNIVERSITYOFSCIENCEXinhua Indices稳定性定义：■指人工智能大模型在工业知识问答领域，具备较高回答准确性能的前提下，针对一定参数扰动，维持某些性能特性的能力，即在非理想的工作环境或应用场景下也能够良好运行的能力评测体系：稳定性评测围绕AI大模型在数据、文法、精简表达、扩充表达四大类八个子维度展开深入评估。数据量纲变化抗扰动能力数据量纲变体测试集VS原测试集数据稳定能力数据形式变化抗扰动能力数据形式变体测试集VS原测试集文本同/近义变化抗扰动能力文本同/近义变体测试集VS原测试集文法稳定能力文本顺序变化抗扰动能力文本顺序变体测试集VS原测试集稳定性文本逻辑变化抗扰动能力文本逻辑变体测试集VS原测试集上下文精简抗扰动能力信息精简变体测试集VS原测试集精简表达稳定能力安全守则精简抗扰动能力安全守则变体测试集VS原测试集扩充表达稳定能力不相关内容扩充抗扰动能力内容扩充变体测试集VS原测试集注：经调研及评测专家组认定，该评测体系符合4 中国工业互联网研究院CA+工业领域知识问答稳定性评测方法新华新华指数ANDTECHNOLOGYCIENCEXinhua Indice评分标准：模型稳定性能力指数定义：■原问题与对应变体问题进行对比测试，题型包含单稳定性能力指数=抗扰动能力指数算术平均值选题和判断题；各测试维度各维度模型实际得分x100■所有进行变体对比的测试题应为模型测试回答准确抗扰动能力指数各维度模型理论最高得分的测试题；各行业稳定性各行业模型实际得分若变体与原问题回答一致时，得分（1分）：若变X100综合能力指数各行业模型理论最高得分体与原问题回答不一致时，不得分（0分）。稳定性测试流程：选取准确能力大针对特定模型，基对特定模型进行输入原问题于一定标准于原问题与变体问的模型稳定性评估题进行对比测试5 中国工业互联网研究院CAII*工业领域知识问答稳定性评测数据集港科技大票HEHONGKCONG新华指数ANDTECHNOLOGYNIVERSITY.OFSCIENCEXinhua Indices测试集电子设备制造业装备制造行业电子器件、电子元件及电子专金属制品、通用设备制造、专用用材料、其他电子元件制造等。设备制造、汽车制造等。采矿行业钢铁行业OHO煤炭、石油、天然气、炼铁、炼钢、钢压延加工、黑色金属、有色金属等。铁合金冶炼等。电力行业石化化工行业电力生产、电力供应、热力石油开采及加工、化学原料及化生产和供应等。学制品制造、塑料制品、橡胶制品等。纺织行业根据OT经验，结合外部数据源建材行业棉纺织、毛纺织、麻纺织、丝构建8大行业建筑材料及制品、非金属矿及绢、化纤等纺织及印染精加工测试数据集。制品、无机非金属新材料等。注：外部数据源主要来自于国家权威题库、互联网等，并经过专家组评审。6 中国工业互联网研究院CAI*专家组成员hinaAcademyofIndustrialinterne港科投大标HEHONGKONG新华指数ANDTECHNOLOGYNIVERSITY.OFSCIENCEXinhua Indices唐立新，中国工程院刘云浩，ACMFellow张涛，IETFelloW，清院士，IEEEFellow，IEEEFellow，长江学华大学教授，信息科东北大学副校长，第者，ACM主席奖、学技术学院副院长，十四届全国人大代表CCF王选奖获得者，自动化系系主任工业智能与系统优化清华大学教授，创新国家级前沿科学中心学院院长。主任和首席科学家。刘，IEEEFelloW，张大庆，欧洲科学院刘江川，加拿大工程ACM杰出科学家，院士，IEEEFellow,院院士，IEEE哈尔滨工业大学北京大学讲席教授，Fellow，加拿大西家（深圳）讲席教授CCF普适计算专委会菲莎大学计算机学院主任。国际人工智能研究正教授和大学杰出教院院长。授。7 中国工业互联网研究院CAI*专家团队香港科投大标HEHONGKONG新华指数VERSITY.OFSCIENCEXinhua Indices张燕咏，IEEEFellow聂再清，清华大学国强杨铮，IEEEFellow，清中国科学技术大学教授教授，AIR首席研究员华大学副教授、博士生导计算机科学与技术学院微软学术搜索发起人师，国家万人计划。副院长，ACM中国副主曾任微软自然语言理解席。科技部下一代人工平台LUIS技术负责人。智能重大项目负责人。黄河燕，北京理工大学刘云新，清华大学国强佳亚，IEEEFellow，香计算机学院教授，国家教授，智能产业研究院港中文大学终身教授，全科学技术进步奖一等奖首席研究员，前微软亚球计算机视觉、人工智能获得者。洲研究院主任研究员。领域权威专家，国家科技国家重点研发计划项目部“新一代人工智能”重负责人。大项目核心专家。张晓明，北京雁栖湖应用数学研究院工业与应用首席研究员，美国麻省理工学院博士。8 中国工业互联网研究院CAI*目录cninaAcademyorlndustnalinterne香港科技大票HEHON新华社新华指数ANDTECHNOLOGYIVERSITYOFSCIENCEXinhua Indices01第一部分评测规则02第二部分评测结果03第三部分总结9 userid:414195,docid:140743,date:2023-09-18,sgpjbg.comCA+中国工业互联网研究院工业领域知识问答稳定性评测结果ChinaAcademyof Industrial Internet香港科技大萨THEHONGKONG新华市新华指数ANDTECHNOLOGYUNIVERSITYOFSCIENCEXinhua Indices100100通义大模型数据稳定能力指数大模型文法稳定能力指数GPTGPTGPTGPT9043.59043.5从容80**80360星火大模型**星火智脑天工大模型大模型**70大模型70大模型大模型大模型*****60大模型★*60大模型大模型**50504040100100GPTGPT大模型精简表达稳定能力指数大模型语言扩充表达稳定能力指数9043.5通义36006GPT干间**★*4GPT智脑星火：***3.580天工星火通义08干间★*大模型**大模型大模型7070+*大模型大模型60605050大模型404010 中国工业互联网研究院CAII*工业领域知识问答稳定性评测结果港科技大HEHONGKONG新华指数ANDTECHNOLOGYUNIVERSITYOFSCIENCEXinhua Indices四大能力维度稳定性八大细分能力维度稳定性行业维度稳定性文法稳定语义理解84,86电子设备制造业10010094,9510088,91不相关信息75顺序变化纺织行业装备制造业5082.7283,9568.9676,7879,805080,835055,742546,782545,6447,742552,82扩充表达稳定46,7847,89数据稳定上下文60,88045,70逻辑判断建材行业60,68042,80钢铁行业83,8585,8790,9183,8677,8081,8159,8560,76 37,68 50,76安全指令84,8788.89数值石化化工行业81,8380,81采矿行业87,89量纲83,86精简表达稳定电力行业国内大模型能力区间GPT4GPT3.5总体来看：从能力维度，国内大模型与国外头部大模型在数据稳定、精简表达、扩充表达能力差距较小，在文法稳定方面存在一定差距：从行业应用，国内大模型与国外在钢铁、采矿、装备制造等方面应用差距较小，其他行业具有较大提升空间11 中国工业互联网研究院CAII*数据稳定能力港科技大票HEHONGKONG新华新华指数UNIVERSITYOFSCIENCENDTECHNOLOGYXinhua Indices数据稳定能力指大模型在工业应用中涉及数据形式或数据量纲变化的输出稳定性工业场景的潜在应用100通义GPT大模型数据稳定能力指数千间GPT1.数据形式扰动903.5从容产品1生产日期产品2生产日期80星火**检查：正确检查：正确大模型**大模型70产品1产品260大模型大模型大模型二O二三年2023年8月捌月生产生产50ot整体看，国内外头部大模型能力接近90分：说明大模型在数据上2.数据量纲扰动稳定性较高；测量结果1为2cm，测量结果2为20mm对比看，国内头部大模型基于中文语境优势，数据能力已实现超两次测量结果一致越：国内尾部大模型能力低于50分，表现具有较大提升空间：供给角度看，国内尾部大模型需要引入训练语料、知识库、工具目函数集等，对数据进行专门强化：应用角度看，鼓励工业企业将大模型应用于数据处理，但需要进行结果校验，尤其是对数据单位要进行多重描述，防止理解偏差12 中国工业互联网研究院CAII*数据稳定能力一数据形式抗扰动港科技大票HON新华指数ANDTECHNOLOGYERSITY.OFSCIENCEXinhua Indices大模型对工业领域不同数值的数据形式的回答稳定性。数据形式抗扰动能力测试样例：100原提问：分度头的主轴轴心线能相对于工作台平面向上90）和向下10°80平均值：76A.10°B、45°C、90°D、120°70扰动提问：分度头的主轴轴心线能相对于工作台平面向上60）和向下10°50A.10.0°B、45.0°C、90°D、120°40注：数据形式变化测试变体涉及“有效数字”、“百分比”和“科学计算法”等形式变化。对于数据形式抗扰动能力，GPT-4表现最佳，当前国内外头部梯队大模型差距较小，国内大模型间存在一定差距从模型供应商角度看，尾部模型需对数据形式稳定性进行专门优化，可通过数据预处理或引入工具函数集等方式强化数据稳定能力：从工业企业角度看，在应用大模型时，对于数据密集型任务，需使用数据形式稳定性较高的大模型13 中国工业互联网研究院CA数据稳定能力一数据量纲抗扰动港科技大票HON新华指数ANDTECHNOLOGYVERSITY.OFSCIENCEXinhua-Indices大模型对工业领域不同数值数据量纲的回答稳定性数据量纲抗扰动能力测试样例：10090原提问：在220kV带电区域中的非带电设备上检修时80工作人员正常活动范围与带电设备的安全距离应大于（）平

点击免费查看完整报告

你可能感兴趣

2023人工智能大模型在工业领域知识问答稳定性评测报告

你可能感兴趣

通用人工智能大模型工业领域知识问答性能

保险行业应用评测报告：人工智能大模型

大语言模型综合评测报告2023

知识增强的视频语义理解评测报告

2023年中国大模型评测（一）：行研创作新范式