您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[沙利文]:2023年中国AI大模型行研能力评测报告 - 发现报告

2023年中国AI大模型行研能力评测报告

信息技术2023-12-22沙利文土***
AI智能总结
查看更多
2023年中国AI大模型行研能力评测报告

(摘要版) AI变⾰⾏业创新发展 2023 China Large Language Model Industry Research Evaluation2023年中国⼤規模モデル産業研究能⼒評価 报告提供的任何内容(包括但不限于数据、⽂字、图表、图像等)均系头豹研究院独有的⾼度机密性⽂件(在报告中另⾏标明出处者除外)。未经头豹研究院事先书⾯许可,任何⼈不得以任何⽅式擅⾃复制、再造、传播、出版、引⽤、改编、汇编本报告内容,若有违反上述约定的⾏为发⽣,头豹研究院保留采取法律措施、追究相关⼈员责任的权利。头豹研究院开展的所有商业活动均使⽤“头豹研究院”或“头豹”的商号、商标,头豹研究院⽆任何前述名称之外的其他分⽀机构,也未授权或聘⽤其他任何第三⽅代表头豹研究院开展商业活动。 1头豹研究院弗若斯特沙利⽂咨询(中国) n⼤模型是⾃然语⾔处理领域中深度学习技术的⾼级应⽤。通过对海量⽂本数据进⾏深度训练,能够吸收和提炼出丰富的语⾔学知识和语义内涵。这种⼤模型通常参数规模庞⼤,动辄数亿甚⾄数⼗亿,从⽽具备理解和⽣成⾃然语⾔的能⼒,与⼈类沟通⼏乎⽆障碍。它的应⽤场景⼴泛,包括但不限于机器翻译、智能问答、⽂本摘要等多个领域。从技术发展的视⻆来看,语⾔模型的演进历程颇具启发性。起初,基于深度神经⽹络进⾏训练;随后,业界逐渐采⽤预训练结合微调的模式来提升性能;⽽如今,最先进的范式已经转向预训练结合提示训练,这⽆疑标志着模拟⼈类思维交流⽅⾯的⼜⼀重⼤突破。这⼀发展轨迹不仅凸显了技术的迅速迭代,更揭示了⾃然语⾔处理领域巨⼤的探索空间和创新潜⼒ n⼤模型能够显著增强研究报告的编写效率,通过采纳精细化的询问策略,分析师在研究过程中能够实现效率的最优化。此外,这⼀模型还能够提供全⾯的⽂本编辑⽀持,包括校正、查重、以及⽂⻛润⾊等功能,从⽽确保分析师提交的⼯作成果达到更⾼的质量标准 ⼤模型技术潮流兴起催⽣中国⼤模型百花⻬放。沙利⽂与头豹研究院联⼿对12个⼤模型进⾏综合评估,以深⼊梳理中国⼤模型在⾏研领域的应⽤表现,为各界提供清晰深⼊的视⻆,以应对预训练⼤模型引发的⼈⼯智能浪潮 当前,⾃然语⾔处理技术中的预训练⼤模型正在全球范围内引领⼀场前所未有的⼈⼯智能⾰命。⾃ChatGPT推出以来,仅在中国地区,涌现出超过80个不同的预训练语⾔⼤模型。这些模型的参与者涵盖了中国顶尖的学术研究机构和领先的互联⽹科技企业,均希望能在这场技术浪潮中抢占先机。值得⼀提的是,过去⼀年⾥,中国学术和产业界也取得了显著进展,商汤的“商量”、百度的“⽂⼼⼀⾔”等⼤模型持续迭代,推动了中国⼤模型产业的快速发展。 沙利⽂与头豹研究院合作,基于数字⾏研解决⽅案的研究和实践经验,凭借百⼈分析师团队的匿名投票机制,筛选出12个⼤模型进⾏综合评估。这⼀评估旨在全⾯了解并梳理中国⼤模型在⾏研领域的应⽤表现。通过这份专业分析,各界能获取到清晰、深⼊的视⻆,以更好地理解和应对由预训练⼤模型引发的⼈⼯智能浪潮。 研究⽬的 基于数字⾏研解决⽅案的研究和实践基础,头豹研究院联合沙利⽂凭借百⼈分析师团队匿名投票机制,筛选了12个⼤模型,进⾏了多维度的综合评估,旨在全⾯了解并系统梳理中国⼤模型参与者在⾏研领域的应⽤表现。 研究⽬标 •了解中国⼤模型在⾏研领域的应⽤价值•探析中国⼤模型在⾏研领域的综合表现•梳理中国⼤模型的参与者现状•评估中国⼤模型⾏研领域的发展潜⼒ 本报告的关键问题 •参与者发展现状:中国⼤模型的参与者有哪些?在⾏研领域的发展现状如何?•⾏研应⽤表现:中国⼤模型在⾏业研究领域的实际应⽤表现如何?•报告撰写能⼒:中国⼤模型在撰写⾏业研究报告⽅⾯的表现能⼒如何?•模型基础能⼒:中国⼤模型逻辑推理能⼒、类⽐迁移能⼒等基础能⼒表现如何?•⾏业理解能⼒:⽬前中国⼤模型在不同⾏业下的理解能⼒以及表现如何? Chapter1⼤模型⾏研能⼒评测背景及⽅法 q本次⼤模型⾏研能⼒测试覆盖1,800+题⽬,由20⼈资深研究分析师团队经过严格的双盲评测流程,围绕研究报告撰写能⼒,模型基础能⼒以及⾏业综合理解能⼒进⾏综合评测 q评测⽅法通过双盲机制最⼤程度保证公允性,每名测试⼈员会随机分配N个模型进⾏答案搜集,彼此在答案搜集期间互相禁⽌分享信息,以保持在答案评测阶段的公允性;在评测阶段,每个问题相对应的12个模型答案顺序会随机打乱,保证评测⼈员对答案不存在任何偏⻅ q本次⼤模型⾏研能⼒评测分为三个核⼼模块,分别为报告撰写能⼒、模型基础能⼒以及⾏业理解能⼒。报告撰写为本次评测的核⼼能⼒,基础能⼒以及⾏业理解能⼒为衍⽣能⼒,顾赋予40%/30%/30%的评分权重 q本次⼤模型⾏业研究能⼒评测截⽌于11⽉30⽇,所选模型基于⽬前开放可⽤的范围。本次评测未涵盖企业尚未开放的⼤模型,评测结果仅反映当前公开可⽤模型的数据 中国⼤模型⾏研能⼒评测——⾏研背景概述 •⾏业研究通过分析特定⾏业的定义、竞争格局、市场规模等关键⽅⾯,产出深刻洞察和观点。⽅法论涵盖从宏观的产业层到微观的产品层的分析,对企业战略、政策制定和⾦融决策等产⽣显著影响 ⾏业研究通过详尽⽅法论输出价值观点,对企业策略、⾦融决策等领域的价值显著 ⾏业研究是深⼊探讨分析特定⾏业的发展现状和市场动态的全⾯过程,包含⾏业定义、分类、竞争格局、市场容量等关键维度。分析师通过分析,⽣成具有深度的洞察和价值观点,对企业战略规划、政策制定、⾦融投资决策和教育培训等多个领域产⽣重要影响。 在⾏业研究中,产业层、⾏业层和产品层各⾃代表宏观经济的不同层次:产业层包含具相似特征的⾏业群体,⾏业层着重于特定⾏业的市场和企业情况,⽽产品层深⼊到具体产品或服务的设计、功能和市场定位。研究⽅法论根据这些层级的宏观到微观差异⽽有所不同,外部维度考虑政策、经济、环境等因素,⽽内部维度则包括发展历史、产业链分析等更细致的⽅⾯。 中国⼤模型⾏研能⼒评测——传统⾏研发展痛点 •从基础数据收集到深度分析输出,传统⾏业研究的流程⾯临着⼯具⾰新滞后、团队知识难以传承、信息溯源复杂性以及研报质量控制的重⼤挑战,共同影响⾏业研究的产出效率和创新能⼒,限制了其发展潜⼒ 传统⾏研发展痛点 传统⾏业研究的产出流程包括三个步骤:⾸先是基础调研,聚焦于⼀⼿和⼆⼿⾏业数据的收集;其次是数据加⼯,涉及整理逻辑、验证数据真实性,并对关键信息进⾏可视化处理;最后是产出结果,确保全⽂逻辑⼀致、可视化清晰并且观点合理。在实际操作中,⾏业研究⾯临多个挑战:1)⼯具更新停滞,⾃互联⽹兴起以来,⾏研主要依赖⽹络检索和办公软件,近20年未⻅显著⾰新;2)团队知识难以复⽤,由于⾼⼈员流动性和新成员培养周期⻓,分析师的经验和知识传承困难;3)信息溯源和合规性考量复杂,在应对海量信息和时间成本压⼒下,信息来源和合规性难以全⾯保障;4)质量控制难度⾼,质控⼈员缺乏专业撰写技能,同时专业分析师缺乏时间进⾏⼴泛质控,导致质量监控极为困难。这些核⼼挑战共同影响着⾏研的产出效率和创新,阻碍⾏研进⼀步发展。 中国⼤模型⾏研能⼒评测——数字⾏研⾰新 •数字⾏研解决⽅案,结合标准化⼯具和先进的⼤模型技术,有效克服了传统⾏业研究的核⼼制约因素,显著提升研究的精度和效率,并引领⾏业研究进⼊⼀个效率更⾼和质量更优的新产出范式 数字化⾏研解决⽅案通过标准化⼯具和⼤模型技术,解决了⾏业研究的核⼼难题,提⾼了研究质量和效率,为⾏业分析带来了⾼效、精准的新范式 数字化⾏研解决⽅案为⾏业研究带来范式⾰新。该系统通过引⼊⼀系列标准化⼯具,如精准的信息溯源系统和写作规范,极⼤降低了⾏业研究的⻔槛,提升了撰写效率,并简化了质量控制流程。此外,数字⾏研基于⼤模型的强⼤底层⽀持,为分析师提供AI辅助⼯具,包括专家访谈、智能检索、查重、校对和改写功能,有效减少信息检索的难度,提升⽂本的准确性和撰写效率,同时加速分析师的专业成⻓。 数字⾏研解决⽅案不仅解决了传统⾏业研究中的关键痛点,如信息溯源困难、严峻的质控挑战、知识低复⽤率和⼯具更新滞后,还借助⼤模型技术推动⾏业研究质量和分析师成⻓速度,引领⾏业研究向更⾼效、精准的新范式转变。 中国⼤模型⾏研能⼒评测——⼤模型赋能⾏研 •⼤模型在数字⾏业研究中扮演核⼼⻆⾊,其功能特性极⼤提升了研究的效率和质量。本研究聚焦于挖掘中国⼤模型在⾏业研究中的实际应⽤和优势,了解⼤模型当前的能⼒边界,以推动⾏研领域的创新与变⾰ ⼤模型赋能⾏研 ⼤模型在数字⾏业研究中扮演核⼼⻆⾊,其功能特性极⼤提升了研究的效率和质量。本研究主要聚焦于中国⼤模型在⾏业研究中的实际应⽤和优势,知晓⼤模型的能⼒边界,旨在推动⾏研领域的创新与变⾰ 作为数字⾏研的关键⽀撑,⼤模型通过其创作、⽣成、改写和检索等核⼼功能,全⽅位推动⾏业研究向前发展。⾸先,⼤模型扮演第三⽅AI专家⻆⾊,协助分析师在研究初期进⾏框架搭建和内容创作,有效减轻案头⼯作负担。其次,通过与分析师的有效互动,⼤模型助⼒⽣成结构化内容和洞察,显著提⾼基础内容的产出效率。进⼀步,它通过减少⽂本错误和重复内容,优化校对流程,提升产出质量。最后,⼤模型能够快速处理海量数据,提供实时信息检索,增强分析师在有限时间内获取全⾯信息的能⼒。 鉴于此,深⼊了解中国⼤模型⾏业的发展态势和技术创新对引领数字⾏业研究新范式⾄关重要。本研究的⽬标是全⾯评价中国领先的⼤模型技术,深⼊分析其在⾏业研究领域的实际应⽤和优势,全⾯审视⼤模型对⾏业研究发展的影响,以促进数字⾏业研究的创新和变⾰。 中国⼤模型⾏研能⼒评测——评测⼤模型参与者 •基于数字⾏研解决⽅案的研究和实践基础,沙利⽂联合头豹研究院依托百⼈分析师团队对12个⼤模型进⾏⾏研辅助能⼒的综合评估,旨在全⾯了解并系统梳理中国⼤模型参与者在⾏研领域的应⽤表现 本次对⼤模型的⾏业研究能⼒进⾏评测的时间定于11⽉15⽇⾄11⽉30⽇,评选的模型基于⽬前市场上开放且可⽤的版本。评测结果将仅反映在评测时段内公开可获取的模型数据。在此次评测中,GPT模型选⽤的公测版本为3.5版本,⽂⼼⼀⾔模型也采⽤其3.5公测版本进⾏评估。 n⾃ChatGPT推出后,中国在预训练⼤模型领域实现了显著进步,涉及顶尖学术机构和科技企业,沙利⽂联合头豹研究院对12个⼤模型进⾏综合评估,以全⾯了解中国⼤模型在⾏研领域的发展与应⽤ 当前,基于⾃然语⾔处理技术的预训练⼤模型已在全球范围内掀起了有史以来最⼤的⼈⼯智能浪潮。⾃ChatGPT推出以来,仅中国地区就出现了超过80个不同的预训练语⾔⼤模型,参与者覆盖中国顶尖的学术研究机构以及互联⽹科技企业,旨在此番浪潮中拔得先机。过去⼀年中,中国学术与产业界也取得了实质性的突破,来⾃商汤的商量、百度的⽂⼼⼀⾔等前沿⼤模型不断升级,带动中国⼤模型产业的发展。 基于数字⾏研解决⽅案的研究和实践基础,沙利⽂联合头豹研究院凭借百⼈分析师团队匿名投票机制,筛选了12个⼤模型,进⾏了多维度的综合评估,旨在全⾯了解并系统梳理中国⼤模型参与者在⾏研领域的应⽤表现。 中国⼤模型⾏研能⼒评测——评测⽅法与指标 •本次⼤模型⾏研能⼒测试覆盖1,800+题⽬,由20⼈资深研究分析师团队经过严格的双盲评测流程,围绕研究报告撰写能⼒,模型基础能⼒以及⾏业综合理解能⼒进⾏综合评测 ⼤模型⾏研能⼒评测⽅法 A.报告撰写能⼒问题 B.⾏研基础能⼒问题 C.⾏业理解能⼒问题 •逻辑推理•类⽐迁移•⽂本⽣成•意图理解•知识储备•语境转换 •⾏业定义•⾏业分类•⾏业特征•发展历程•产业链分析•市场规模•政策分析•竞争格局 •⾦融业•医疗业•制造业•互联⽹科技业•零售业•教育业•运输业•…. 本次测试覆盖三⼤板块,1,800+道题⽬,由20⼈资深研究分析师团队经过严格的双盲评测流程得出,最⼤程度保证公允性 本次⼤模型能⼒测试围绕三⼤核⼼板块展开评测:分别是研究报告撰写能⼒,模型基础能⼒以及⾏业综合理解能⼒。通过模型在三⼤核⼼板块的表现⼒最终得出评测结果。其中,报告撰写覆盖8篇不同主体报告撰写,涵盖128道问题,分析师⻓期跟踪报告