行业研究公司研究宏观策略财报招股书会议纪要 Token 低空经济十五五 AIGC 大模型

2023年中国AI大模型行研能力评测报告

信息技术 2023-12-22 沙利文土豆不吃泥

中国大模型行研能力评测概览

报告背景与目的

背景：随着AI技术的快速发展，尤其是预训练大模型在全球范围内的普及，中国大模型产业展现出蓬勃活力，涌现了众多参与大模型研发的顶尖学术机构和互联网科技企业。为了深入理解这些大模型在行业研究（行研）领域的应用价值与潜力，沙利文与头豹研究院合作，对12个代表性大模型进行了全面评估。

评测方法与指标

评测对象：选取了12个大模型进行综合评估，覆盖了报告撰写能力、基础能力（如逻辑推理、类比迁移等）和行业理解能力三大核心维度。
评测过程：采用了严格的双盲评测流程，由20位资深研究分析师匿名投票，确保评测的公正性。评测覆盖了1,800多个问题，涉及报告撰写能力、基础能力以及行业理解能力的多个子项。
评测依据：依据8-D方法论构建了报告撰写能力的评估框架，包含行业定义、行业分类、发展历程、产业链分析、政策分析、市场规模、竞争格局等模块。

行研能力评测概要

大模型赋能行研：大模型通过自动化内容生成、改写、查询等功能，显著提升了行研的效率和质量。例如，AI辅助文本创作、专家访谈模拟、资料检索优化等，极大减轻了分析师的工作负担。
行业理解与应用：通过14个主要行业的大模型测试，评估了大模型在不同行业中的理解和应用能力，发现大模型在金融业、医疗业、制造业等领域表现出较高的应用价值。
报告撰写能力：评测了大模型在撰写行业报告时的逻辑推理、文本生成、类比迁移、意图理解、知识储备和语境转换等方面的能力，评估结果显示大模型在这些方面均有不俗表现。
模型基础能力：大模型在基础能力方面展示了较强的逻辑推理、类比迁移、文本生成和意图理解能力，同时也显示了在知识储备和语境转换上的潜力。

结果与展望

结果：评测结果显示，中国大模型在行研领域的应用展现出显著的效率提升和质量优化，尤其是在自动化报告生成、信息检索和行业理解方面。
展望：未来，随着大模型技术的进一步发展和完善，预计中国大模型在行研领域的应用将更加广泛，不仅能提升工作效率，还能深化行业洞察，推动行业研究向更高效、精准的方向发展。

总结

本次中国大模型行研能力评测聚焦于大模型在行业研究领域的应用表现，通过详尽的评测流程和指标体系，展现了大模型在提升行研效率、优化报告质量、深化行业理解方面的潜力。随着技术的不断进步和应用场景的扩展，大模型有望成为推动中国乃至全球行研领域创新与发展的重要力量。

（摘要版） AI变⾰⾏业创新发展 2023 China Large Language Model Industry Research Evaluation2023年中国⼤規模モデル産業研究能⼒評価报告提供的任何内容（包括但不限于数据、⽂字、图表、图像等）均系头豹研究院独有的⾼度机密性⽂件（在报告中另⾏标明出处者除外）。未经头豹研究院事先书⾯许可，任何⼈不得以任何⽅式擅⾃复制、再造、传播、出版、引⽤、改编、汇编本报告内容，若有违反上述约定的⾏为发⽣，头豹研究院保留采取法律措施、追究相关⼈员责任的权利。头豹研究院开展的所有商业活动均使⽤“头豹研究院”或“头豹”的商号、商标，头豹研究院⽆任何前述名称之外的其他分⽀机构，也未授权或聘⽤其他任何第三⽅代表头豹研究院开展商业活动。 1头豹研究院弗若斯特沙利⽂咨询（中国） n⼤模型是⾃然语⾔处理领域中深度学习技术的⾼级应⽤。通过对海量⽂本数据进⾏深度训练，能够吸收和提炼出丰富的语⾔学知识和语义内涵。这种⼤模型通常参数规模庞⼤，动辄数亿甚⾄数⼗亿，从⽽具备理解和⽣成⾃然语⾔的能⼒，与⼈类沟通⼏乎⽆障碍。它的应⽤场景⼴泛，包括但不限于机器翻译、智能问答、⽂本摘要等多个领域。从技术发展的视⻆来看，语⾔模型的演进历程颇具启发性。起初，基于深度神经⽹络进⾏训练；随后，业界逐渐采⽤预训练结合微调的模式来提升性能；⽽如今，最先进的范式已经转向预训练结合提示训练，这⽆疑标志着模拟⼈类思维交流⽅⾯的⼜⼀重⼤突破。这⼀发展轨迹不仅凸显了技术的迅速迭代，更揭示了⾃然语⾔处理领域巨⼤的探索空间和创新潜⼒ n⼤模型能够显著增强研究报告的编写效率，通过采纳精细化的询问策略，分析师在研究过程中能够实现效率的最优化。此外，这⼀模型还能够提供全⾯的⽂本编辑⽀持，包括校正、查重、以及⽂⻛润⾊等功能，从⽽确保分析师提交的⼯作成果达到更⾼的质量标准⼤模型技术潮流兴起催⽣中国⼤模型百花⻬放。沙利⽂与头豹研究院联⼿对12个⼤模型进⾏综合评估，以深⼊梳理中国⼤模型在⾏研领域的应⽤表现，为各界提供清晰深⼊的视⻆，以应对预训练⼤模型引发的⼈⼯智能浪潮当前，⾃然语⾔处理技术中的预训练⼤模型正在全球范围内引领⼀场前所未有的⼈⼯智能⾰命。⾃ChatGPT推出以来，仅在中国地区，涌现出超过80个不同的预训练语⾔⼤模型。这些模型的参与者涵盖了中国顶尖的学术研究机构和领先的互联⽹科技企业，均希望能在这场技术浪潮中抢占先机。值得⼀提的是，过去⼀年⾥，中国学术和产业界也取得了显著进展，商汤的“商量”、百度的“⽂⼼⼀⾔”等⼤模型持续迭代，推动了中国⼤模型产业的快速发展。沙利⽂与头豹研究院合作，基于数字⾏研解决⽅案的研究和实践经验，凭借百⼈分析师团队的匿名投票机制，筛选出12个⼤模型进⾏综合评估。这⼀评估旨在全⾯了解并梳理中国⼤模型在⾏研领域的应⽤表现。通过这份专业分析，各界能获取到清晰、深⼊的视⻆，以更好地理解和应对由预训练⼤模型引发的⼈⼯智能浪潮。研究⽬的基于数字⾏研解决⽅案的研究和实践基础，头豹研究院联合沙利⽂凭借百⼈分析师团队匿名投票机制，筛选了12个⼤模型，进⾏了多维度的综合评估，旨在全⾯了解并系统梳理中国⼤模型参与者在⾏研领域的应⽤表现。研究⽬标 •了解中国⼤模型在⾏研领域的应⽤价值•探析中国⼤模型在⾏研领域的综合表现•梳理中国⼤模型的参与者现状•评估中国⼤模型⾏研领域的发展潜⼒本报告的关键问题 •参与者发展现状：中国⼤模型的参与者有哪些？在⾏研领域的发展现状如何？•⾏研应⽤表现：中国⼤模型在⾏业研究领域的实际应⽤表现如何？•报告撰写能⼒：中国⼤模型在撰写⾏业研究报告⽅⾯的表现能⼒如何？•模型基础能⼒：中国⼤模型逻辑推理能⼒、类⽐迁移能⼒等基础能⼒表现如何？•⾏业理解能⼒：⽬前中国⼤模型在不同⾏业下的理解能⼒以及表现如何？ Chapter1⼤模型⾏研能⼒评测背景及⽅法 q本次⼤模型⾏研能⼒测试覆盖1,800+题⽬，由20⼈资深研究分析师团队经过严格的双盲评测流程，围绕研究报告撰写能⼒，模型基础能⼒以及⾏业综合理解能⼒进⾏综合评测 q评测⽅法通过双盲机制最⼤程度保证公允性，每名测试⼈员会随机分配N个模型进⾏答案搜集，彼此在答案搜集期间互相禁⽌分享信息，以保持在答案评测阶段的公允性；在评测阶段，每个问题相对应的12个模型答案顺序会随机打乱，保证评测⼈员对答案不存在任何偏⻅ q本次⼤模型⾏研能⼒评测分为三个核⼼模块，分别为报告撰写能⼒、模型基础能⼒以及⾏业理解能⼒。报告撰写为本次评测的核⼼能⼒，基础能⼒以及⾏业理解能⼒为衍⽣能⼒，顾赋予40%/30%/30%的评分权重 q本次⼤模型⾏业研究能⼒评测截⽌于11⽉30⽇，所选模型基于⽬前开放可⽤的范围。本次评测未涵盖企业尚未开放的⼤模型，评测结果仅反映当前公开可⽤模型的数据中国⼤模型⾏研能⼒评测——⾏研背景概述 •⾏业研究通过分析特定⾏业的定义、竞争格局、市场规模等关键⽅⾯，产出深刻洞察和观点。⽅法论涵盖从宏观的产业层到微观的产品层的分析，对企业战略、政策制定和⾦融决策等产⽣显著影响⾏业研究通过详尽⽅法论输出价值观点，对企业策略、⾦融决策等领域的价值显著⾏业研究是深⼊探讨分析特定⾏业的发展现状和市场动态的全⾯过程，包含⾏业定义、分类、竞争格局、市场容量等关键维度。分析师通过分析，⽣成具有深度的洞察和价值观点，对企业战略规划、政策制定、⾦融投资决策和教育培训等多个领域产⽣重要影响。在⾏业研究中，产业层、⾏业层和产品层各⾃代表宏观经济的不同层次：产业层包含具相似特征的⾏业群体，⾏业层着重于特定⾏业的市场和企业情况，⽽产品层深⼊到具体产品或服务的设计、功能和市场定位。研究⽅法论根据这些层级的宏观到微观差异⽽有所不同，外部维度考虑政策、经济、环境等因素，⽽内部维度则包括发展历史、产业链分析等更细致的⽅⾯。中国⼤模型⾏研能⼒评测——传统⾏研发展痛点 •从基础数据收集到深度分析输出，传统⾏业研究的流程⾯临着⼯具⾰新滞后、团队知识难以传承、信息溯源复杂性以及研报质量控制的重⼤挑战，共同影响⾏业研究的产出效率和创新能⼒，限制了其发展潜⼒传统⾏研发展痛点传统⾏业研究的产出流程包括三个步骤：⾸先是基础调研，聚焦于⼀⼿和⼆⼿⾏业数据的收集；其次是数据加⼯，涉及整理逻辑、验证数据真实性，并对关键信息进⾏可视化处理；最后是产出结果，确保全⽂逻辑⼀致、可视化清晰并且观点合理。在实际操作中，⾏业研究⾯临多个挑战：1）⼯具更新停滞，⾃互联⽹兴起以来，⾏研主要依赖⽹络检索和办公软件，近20年未⻅显著⾰新；2）团队知识难以复⽤，由于⾼⼈员流动性和新成员培养周期⻓，分析师的经验和知识传承困难；3）信息溯源和合规性考量复杂，在应对海量信息和时间成本压⼒下，信息来源和合规性难以全⾯保障；4）质量控制难度⾼，质控⼈员缺乏专业撰写技能，同时专业分析师缺乏时间进⾏⼴泛质控，导致质量监控极为困难。这些核⼼挑战共同影响着⾏研的产出效率和创新，阻碍⾏研进⼀步发展。中国⼤模型⾏研能⼒评测——数字⾏研⾰新 •数字⾏研解决⽅案，结合标准化⼯具和先进的⼤模型技术，有效克服了传统⾏业研究的核⼼制约因素，显著提升研究的精度和效率，并引领⾏业研究进⼊⼀个效率更⾼和质量更优的新产出范式数字化⾏研解决⽅案通过标准化⼯具和⼤模型技术，解决了⾏业研究的核⼼难题，提⾼了研究质量和效率，为⾏业分析带来了⾼效、精准的新范式数字化⾏研解决⽅案为⾏业研究带来范式⾰新。该系统通过引⼊⼀系列标准化⼯具，如精准的信息溯源系统和写作规范，极⼤降低了⾏业研究的⻔槛，提升了撰写效率，并简化了质量控制流程。此外，数字⾏研基于⼤模型的强⼤底层⽀持，为分析师提供AI辅助⼯具，包括专家访谈、智能检索、查重、校对和改写功能，有效减少信息检索的难度，提升⽂本的准确性和撰写效率，同时加速分析师的专业成⻓。数字⾏研解决⽅案不仅解决了传统⾏业研究中的关键痛点，如信息溯源困难、严峻的质控挑战、知识低复⽤率和⼯具更新滞后，还借助⼤模型技术推动⾏业研究质量和分析师成⻓速度，引领⾏业研究向更⾼效、精准的新范式转变。中国⼤模型⾏研能⼒评测——⼤模型赋能⾏研 •⼤模型在数字⾏业研究中扮演核⼼⻆⾊，其功能特性极⼤提升了研究的效率和质量。本研究聚焦于挖掘中国⼤模型在⾏业研究中的实际应⽤和优势，了解⼤模型当前的能⼒边界，以推动⾏研领域的创新与变⾰⼤模型赋能⾏研⼤模型在数字⾏业研究中扮演核⼼⻆⾊，其功能特性极⼤提升了研究的效率和质量。本研究主要聚焦于中国⼤模型在⾏业研究中的实际应⽤和优势，知晓⼤模型的能⼒边界，旨在推动⾏研领域的创新与变⾰作为数字⾏研的关键⽀撑，⼤模型通过其创作、⽣成、改写和检索等核⼼功能，全⽅位推动⾏业研究向前发展。⾸先，⼤模型扮演第三⽅AI专家⻆⾊，协助分析师在研究初期进⾏框架搭建和内容创作，有效减轻案头⼯作负担。其次，通过与分析师的有效互动，⼤模型助⼒⽣成结构化内容和洞察，显著提⾼基础内容的产出效率。进⼀步，它通过减少⽂本错误和重复内容，优化校对流程，提升产出质量。最后，⼤模型能够快速处理海量数据，提供实时信息检索，增强分析师在有限时间内获取全⾯信息的能⼒。鉴于此，深⼊了解中国⼤模型⾏业的发展态势和技术创新对引领数字⾏业研究新范式⾄关重要。本研究的⽬标是全⾯评价中国领先的⼤模型技术，深⼊分析其在⾏业研究领域的实际应⽤和优势，全⾯审视⼤模型对⾏业研究发展的影响，以促进数字⾏业研究的创新和变⾰。中国⼤模型⾏研能⼒评测——评测⼤模型参与者 •基于数字⾏研解决⽅案的研究和实践基础，沙利⽂联合头豹研究院依托百⼈分析师团队对12个⼤模型进⾏⾏研辅助能⼒的综合评估，旨在全⾯了解并系统梳理中国⼤模型参与者在⾏研领域的应⽤表现本次对⼤模型的⾏业研究能⼒进⾏评测的时间定于11⽉15⽇⾄11⽉30⽇，评选的模型基于⽬前市场上开放且可⽤的版本。评测结果将仅反映在评测时段内公开可获取的模型数据。在此次评测中，GPT模型选⽤的公测版本为3.5版本，⽂⼼⼀⾔模型也采⽤其3.5公测版本进⾏评估。 n⾃ChatGPT推出后，中国在预训练⼤模型领域实现了显著进步，涉及顶尖学术机构和科技企业，沙利⽂联合头豹研究院对12个⼤模型进⾏综合评估，以全⾯了解中国⼤模型在⾏研领域的发展与应⽤当前，基于⾃然语⾔处理技术的预训练⼤模型已在全球范围内掀起了有史以来最⼤的⼈⼯智能浪潮。⾃ChatGPT推出以来，仅中国地区就出现了超过80个不同的预训练语⾔⼤模型，参与者覆盖中国顶尖的学术研究机构以及互联⽹科技企业，旨在此番浪潮中拔得先机。过去⼀年中，中国学术与产业界也取得了实质性的突破，来⾃商汤的商量、百度的⽂⼼⼀⾔等前沿⼤模型不断升级，带动中国⼤模型产业的发展。基于数字⾏研解决⽅案的研究和实践基础，沙利⽂联合头豹研究院凭借百⼈分析师团队匿名投票机制，筛选了12个⼤模型，进⾏了多维度的综合评估，旨在全⾯了解并系统梳理中国⼤模型参与者在⾏研领域的应⽤表现。中国⼤模型⾏研能⼒评测——评测⽅法与指标 •本次⼤模型⾏研能⼒测试覆盖1,800+题⽬，由20⼈资深研究分析师团队经过严格的双盲评测流程，围绕研究报告撰写能⼒，模型基础能⼒以及⾏业综合理解能⼒进⾏综合评测⼤模型⾏研能⼒评测⽅法 A.报告撰写能⼒问题 B.⾏研基础能⼒问题 C.⾏业理解能⼒问题 •逻辑推理•类⽐迁移•⽂本⽣成•意图理解•知识储备•语境转换 •⾏业定义•⾏业分类•⾏业特征•发展历程•产业链分析•市场规模•政策分析•竞争格局 •⾦融业•医疗业•制造业•互联⽹科技业•零售业•教育业•运输业•…. 本次测试覆盖三⼤板块，1,800+道题⽬，由20⼈资深研究分析师团队经过严格的双盲评测流程得出，最⼤程度保证公允性本次⼤模型能⼒测试围绕三⼤核⼼板块展开评测：分别是研究报告撰写能⼒，模型基础能⼒以及⾏业综合理解能⼒。通过模型在三⼤核⼼板块的表现⼒最终得出评测结果。其中，报告撰写覆盖8篇不同主体报告撰写，涵盖128道问题，分析师⻓期跟踪报告

点击免费查看完整报告

2023年中国AI大模型行研能力评测报告

中国大模型行研能力评测概览

报告背景与目的

评测方法与指标

行研能力评测概要

结果与展望

总结

你可能感兴趣

中国大模型行研能力年中评测二AI助力渗透千行百业20241010

大模型赋能投研之八：拥抱MCP，Trae代码能力与赋能投研评测

2024年中国大模型行研能力年中评测

2023年中国大模型行研能力市场探析：大模型底层助力，行研智慧前行

SuperBench大模型综合能力评测报告（2024年3月）

2024年中国大语言模型能力评析（一）：评测方法论与综合评测结果-AI变革行业创新发展

大模型赋能投研之十五：国产大模型编程辅助投研方案全方位评测

2023年中国大模型评测（一）：行研创作新范式

【研选】AI商业化全面提速，海内外大模型厂商上调服务价格和收入预期，分析师看好国产算力产业链；受益于渠道改革和差异新品，公司盈利能力有望持续提升-20260420

AI 旅游行程助手类应用能力评测报告