您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[头豹研究院]:2023年中国大模型评测(一):行研创作新范式 - 发现报告
当前位置:首页/行业研究/报告详情/

2023年中国大模型评测(一):行研创作新范式

信息技术2024-04-12常乔雨头豹研究院机构上传
2023年中国大模型评测(一):行研创作新范式

1报告提供的任何内容(包括但不限于数据、文字、图表、图像等)均系头豹研究院独有的高度机密性文件(在报告中另行标明出处者除外)。未经头豹研究院事先书面许可,任何人不得以任何方式擅自复制、再造、传播、出版、引用、改编、汇编本报告内容,若有违反上述约定的行为发生,头豹研究院保留采取法律措施、追究相关人员责任的权利。头豹研究院开展的所有商业活动均使用“头豹研究院”或“头豹”的商号、商标,头豹研究院无任何前述名称之外的其他分支机构,也未授权或聘用其他任何第三方代表头豹研究院开展商业活动。头豹研究院2023年中国大模型评测(一)行研创作新范式AI变革行业创新发展2023 China Large Language Industry Research Capability Evaluation2023中国大言語産業研究能力評価撰写人:常乔雨 头豹研究院咨询/合作网址:www.leadleo.com电话:15999806788(袁先生)电话:18916233114(李先生)深圳市华润置地大厦E座4105室团队介绍袁栩聪首席分析师oliver.yuan@Leadleo.com头豹是国内领先的行企研究原创内容平台和创新的数字化研究服务提供商。头豹在中国已布局3大研究院,拥有近百名资深分析师,头豹科创网(www.leadleo.com)拥有20万+注册用户,6,000+行业赛道覆盖及相关研究报告产出。头豹打造了一系列产品及解决方案,包括数据库服务、行企研报服务、微估值及微尽调自动化产品、财务顾问服务、PR及IR服务,研究课程,以及分析师培训等。诚挚欢迎各界精英与头豹交流合作,请即通过邮件或来电咨询。报告作者常乔雨行业分析师charles.chang@Leadleo.com 中国:人工智能系列行业研读 | 2023/11www.leadleo.com400-072-55883摘要◼在报告撰写评测中,各平台表现各异,其中商量整体表现稳定且领先,而GPT3.5和百川因信息更新和答案完整性问题而在某些关键模块中失分较多在报告撰写能力评测中,商量整体表现稳定,超过均分。文心一言3.5和星火有波动;讯飞在分类任务中表现佳,天工在多个领域表现优秀但产业链不足。GPT3.5因信息库旧而在竞争和市场方面失分。智谱清言和通义千问整体稳定,各有突出领域。百川在政策方面波动大,紫东太初和雅意表现相似但在特定模块有所不足。Minimax在多数模块略高于均分,但在某些重要领域失分严重。行研基础能力从AI辅助文本创作角度出发,结合大模型基础核心能力,归总出对于行业研究报告撰写角度最重要的六大能力维度。报告撰写能力是沙利文及头豹行企研究的全面系统的研究方法论,专用于行业的深入分析。结合详实的数据和精准的分析,显著提升行业研究内容的清晰度和数据的丰富性。在报告撰写能力板块的表现中,商汤商量、讯飞星火以及文心一言3.5占据前三甲。其余模型表现各有千秋,例如紫东在行业特征的归纳总结能力较强,Minimax则在发展历程和产业链分析细分维度表现优秀。大模型在行研基础能力的表现差异显著,商汤商量、GPT3.5以及文心一言3.5占据前三甲,领先幅度较大。排名靠后的模型虽综合评分低,但细分模块表现优异,例如智谱清言和百川在意图理解能力高于均分。◼在行研基础能力评测维度中,商汤商量、GPT3.5、以及文心一言3.5表现稳定性强,在单一模块能力各有领先在行研基础能力评测中,商汤商量、GPT3.5和文心一言3.5表现稳定,各自在不同方面领先。GPT3.5在逻辑推理上领先,商汤商量擅长文字生成和语境转换,文心一言3.5优于意图理解。天工、智谱清言和百川波动性大,表现不均。讯飞星火、腾讯混元和Minimax表现平稳但有波动,特别是Minimax在文字生成上表现较弱。通义千问、紫东太初和雅意整体较弱,特别是在逻辑推理和意图理解上,显示出与领先模型在参数量和微调方面的差距。 4www.leadleo.com400-072-558812◼研究目的了解中国语言大模型的发展演变以及竞争态势,通过对大模型进行深度评测来梳理中国语言大模型的市场现状◼研究目标•了解中国大模型在报告撰写能力的表现•了解中国大模型在行研基础能力的表现◼本报告的关键问题•报告撰写能力:中国语言大模型在行企研究报告的撰写能力几何?在竞争格局、市场规模、产业链分析等高难度模块的竞争表现如何?•模型基础能力:中国语言大模型的逻辑推导能力、类比迁移能力等基础能力表现如何?中国:人工智能系列行业研读 | 2023/12 5www.leadleo.com400-072-5588行业研读 | 2023/12Chapter1大模型报告撰写能力评测结果❑在报告撰写能力板块的表现中,商汤商量、讯飞星火以及文心一言3.5占据前三甲。其余模型表现各有千秋,例如紫东在行业特征的归纳总结能力较强,Minimax则在发展历程和产业链分析细分维度表现优秀❑在报告撰写评测中,不同平台表现存在显著差异。例如,商量凭借其稳定性和在关键模块的领先优势显著。而GPT3.5和百川因信息库更新不足及答案完整性与准确性问题,在高权重模块中失分较多❑行业定义、行业分类、发展历程以及政策分析在行研撰写中难度较低,重点聚集在信息搜集的准确度。在低难度撰写模块中,12大模型没有显著的差距,但部分模型由于在特定模块中无法回答,因此失分严重❑商汤商量、讯飞星火以及文心一言3.5是模型报告撰写能力排名前三甲。在报告撰写的细分模块中,行业定义和分类的平均得分较高,撰写难度相对较低。产业链、竞争格局和市场规模得分较低,撰写难度大 6www.leadleo.com400-072-5588中国:人工智能系列行业研读 | 2023/12•在报告撰写能力板块的表现中,商汤商量、讯飞星火以及文心一言3.5占据前三甲。其余模型表现各有千秋,例如紫东在行业特征的归纳总结能力较强,Minimax则在发展历程和产业链分析细分维度表现优秀大模型报告撰写能力评测结果——报告撰写能力评测结果大模型报告撰写能力评测结果排名模型名称总得分定义分类行业特征发展历程产业链市场规模政策分析竞争格局1商汤商量8.272讯飞星火8.103文心一言3.58.084天工7.585GPT3.57.586腾讯混元7.587智谱清言7.448百川7.389通义千问7.3410紫东太初7.3311Minimax7.2612雅意7.23得分高得分低报告撰写能力由模型在定义、分类、行业特征、发展历程、产业链、市场规模、政策分析以及竞争格局8D模块的表现综合评定而成◼模型在报告撰写评测的表现中,商量、讯飞星火、以及文心一言3.5是表现TOP3的模型,其中商汤商量在8D模块均表现强劲,讯飞星火在高难度撰写板块展现一定实力根据大模型报告撰写能力综合热力矩阵图可以看出商汤商量是综合能力最强的模型,且在各个板块的表现稳定处在前列位置。讯飞星火虽在发展历程失分较为严重,但在市场规模、政策分析以及竞争格局的高难度撰写板块中表现强劲。来源:沙利文、头豹研究院 7www.leadleo.com400-072-5588中国:人工智能系列行业研读 | 2023/12•在报告撰写评测中,不同平台表现存在显著差异。例如,商量凭借其稳定性和在关键模块的领先优势显著。而GPT3.5和百川因信息库更新不足及答案完整性与准确性问题,在高权重模块中失分较多大模型报告撰写能力评测结果——报告撰写能力表现大模型报告撰写能力评测结果4.55.56.57.5产业链定义发展历程分类竞争格局市场规模特征政策分析商汤商量讯飞星火文心一言天工GPT3.5(参考模型)腾讯混元智谱百川通义千问紫东太初Minimax中科闻歌◼在报告撰写评测中,各平台表现各异,其中商量整体表现稳定且领先,而GPT3.5和百川因信息更新和答案完整性问题而在某些关键模块中失分较多在报告撰写能力评测中,商量的整体表现稳定,在8D模块中均超过均分,领先于其他。文心一言3.5和星火表现出波动,例如讯飞在发展历程和竞争格局低于均分,但在分类任务中表现最佳。天工在发展历程、市场规模和定义方面表现优秀,但在产业链方面略显不足。GPT3.5在竞争格局和市场规模中失分较多,主要因为其信息库较旧,无法提供有效价值信息,影响了其在报告撰写的综合表现。智谱清言和通义千问的综合表现稳定,在8D各模块中与均分相近,其中智谱清言在政策分析方面表现优异,通义千问在特征环节表现突出。百川的表现波动较大,尤其是在政策模块由于无法给出答案,导致失分严重,影响了整体均分。紫东太初和雅意的表现相似,除在特征和政策分析模块外,其他分值走势几乎一致。Minimax在8D模块中五项略高于均分,但在产业链和竞争格局这两个高权重模块中失分严重。来源:沙利文、头豹研究院完整版登录www.leadleo.com搜索《2023年中国大模型行研能力测评(一):行研创作新范式》 8www.leadleo.com400-072-5588中国:人工智能系列行业研读 | 2023/12•产业链分析是8D模块中最具挑战性和权重最高的部分,考验大模型在行业定义、信息检索和价值挖掘方面的能力,其中商汤商量、文心一言3.5和讯飞星火凭借出色的知识储备和逻辑推理表现优异中国大模型行研能力评测分析——高阶难度模块表现大模型产业链分析能力评测结果◼产业链分析作为8D模块中最具挑战性且权重最高的部分,考验着大模型在定义行业、信息检索和价值挖掘方面的综合能力,其中商汤商量、文心一言3.5和讯飞星火因其优秀的知识储备和逻辑推理能力在这一模块中表现突出产业链分析是高阶难度撰写模块之一,权重在评测分数中占到了17.5%,是8D模块中评测得分权重最大的模块。其复杂性源于需要大模型在三个关键维度进行深入的信息处理:首先是对特定行业产业链的上中下游及其参与者的精确界定;其次是在确认主体后,筛选出与各环节相关的关键信息;最后是对收集到的信息进行深度加工,探索产业链的价值流向和影响力,以提炼出对该行业宏观层面的关键见解。这一系列步骤要求模型具备高度的信息检索和逻辑归纳能力,且随着过程的深入,难度逐渐增大。大模型在产业链分析表现均分为5.8分,是8D模块的第二低分,侧面反映了其内容产出的难度。其中,商汤商量、文心一言3.5、百川、雅意、讯飞星火以及GPT3.5是表现优异的模型,综合表现高于均分。商汤商量、文心一言3.5以及讯飞星火得益于其优秀的知识储备能力以及逻辑推理归纳能力,在这一模块表现优秀。来源:沙利文、头豹研究院产业链分析产业链均值:5.80完整版登录www.leadleo.com搜索《2023年中国大模型行研能力测评(一):行研创作新范式》 9www.leadleo.com400-072-5588中国:人工智能系列行业研读 | 2023/12•行业定义、行业分类、发展历程以及政策分析在行研撰写中难度较低,重点聚集在信息搜集的准确度。在低难度撰写模块中,12大模型没有显著的差距,但部分模型由于在特定模块中无法回答,因此失分严重中国大模型行研能力评测分析——低阶难度模块表现大模型报告撰写能力低阶难度模块评测结果定义均值:6.48行业定义分类均值:6.93行业分类发展历程均值:6.52发展历程政策分析均值:6.12政策分析来源:沙利文、头豹研究院◼模型在低难度报告撰写模块的表现中,商汤商量和讯飞星火表现最为优秀,在四个模块的评测得分均显著高于均分行业定义、行业分类、发展历程以及政策分析在行研撰写中难度较低,这四大模块重点落在信息搜集的准确度,对归纳推理的整体要求较低,更多考察模型的知识库丰富性以及把握信息准确性的能力。在低难度撰写模块中,12大模型整体的表现较为平均,模型之间没有显著的差距。但部分模型在发展历程和政策分析模块中无法给出明确的答案,从而导致失分情况严重,对最终均分影响较大。完整版登录www.leadleo.com搜索《2023年中国大模型行研能力测评(一):行研创作新范式》 10www.leadleo.com400-072-5588中国:人工智能系列行业研读 | 2023/12•商汤商量、讯飞星火以及

你可能感兴趣

hot

2024年中国大模型评测报告

信息技术
沙利文2024-03-25
hot

2023人工智能大模型在工业领域知识问答稳定性评测报告

信息技术
中国工业互联网研究院2023-09-18
hot

大语言模型综合评测报告2023

文化传媒
InfoQ2023-05-31