您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[沙利文]:2023年中国AI大模型行研能力评测报告 - 发现报告
当前位置:首页/行业研究/报告详情/

2023年中国AI大模型行研能力评测报告

信息技术2023-12-22沙利文土***
2023年中国AI大模型行研能力评测报告

12023年中国大模型行研能力评测(摘要版)AI变革行业创新发展2023 China Large Language Model Industry Research Evaluation2023年中国大規模モデル産業研究能力評価报告提供的任何内容(包括但不限于数据、文字、图表、图像等)均系头豹研究院独有的高度机密性文件(在报告中另行标明出处者除外)。未经头豹研究院事先书面许可,任何人不得以任何方式擅自复制、再造、传播、出版、引用、改编、汇编本报告内容,若有违反上述约定的行为发生,头豹研究院保留采取法律措施、追究相关人员责任的权利。头豹研究院开展的所有商业活动均使用“头豹研究院”或“头豹”的商号、商标,头豹研究院无任何前述名称之外的其他分支机构,也未授权或聘用其他任何第三方代表头豹研究院开展商业活动。头豹研究院弗若斯特沙利文咨询(中国) 中国:人工智能系列行业研读| 2023/11www.leadleo.com400-072-5588n大模型技术潮流兴起催生中国大模型百花⻬放。沙利文与头豹研究院联手对12个大模型进行综合评估,以深入梳理中国大模型在行研领域的应用表现,为各界提供清晰深入的视⻆,以应对预训练大模型引发的人工智能浪潮当前,自然语言处理技术中的预训练大模型正在全球范围内引领一场前所未有的人工智能革命。自ChatGPT推出以来,仅在中国地区,涌现出超过80个不同的预训练语言大模型。这些模型的参与者涵盖了中国顶尖的学术研究机构和领先的互联网科技企业,均希望能在这场技术浪潮中抢占先机。值得一提的是,过去一年里,中国学术和产业界也取得了显著进展,商汤的“商量”、百度的“文心一言”等大模型持续迭代,推动了中国大模型产业的快速发展。沙利文与头豹研究院合作,基于数字行研解决方案的研究和实践经验,凭借百人分析师团队的匿名投票机制,筛选出12个大模型进行综合评估。这一评估旨在全面了解并梳理中国大模型在行研领域的应用表现。通过这份专业分析,各界能获取到清晰、深入的视⻆,以更好地理解和应对由预训练大模型引发的人工智能浪潮。n大模型是自然语言处理领域中深度学习技术的高级应用。通过对海量文本数据进行深度训练,能够吸收和提炼出丰富的语言学知识和语义内涵。这种大模型通常参数规模庞大,动辄数亿甚至数十亿,从而具备理解和生成自然语言的能力,与人类沟通几乎无障碍。它的应用场景广泛,包括但不限于机器翻译、智能问答、文本摘要等多个领域。从技术发展的视⻆来看,语言模型的演进历程颇具启发性。起初,基于深度神经网络进行训练;随后,业界逐渐采用预训练结合微调的模式来提升性能;而如今,最先进的范式已经转向预训练结合提示训练,这无疑标志着模拟人类思维交流方面的又一重大突破。这一发展轨迹不仅凸显了技术的迅速迭代,更揭示了自然语言处理领域巨大的探索空间和创新潜力n大模型能够显著增强研究报告的编写效率,通过采纳精细化的询问策略,分析师在研究过程中能够实现效率的最优化。此外,这一模型还能够提供全面的文本编辑支持,包括校正、查重、以及文⻛润色等功能,从而确保分析师提交的工作成果达到更高的质量标准大模型评测 | 2023/12 3www.leadleo.com400-072-558812n研究目的基于数字行研解决方案的研究和实践基础,头豹研究院联合沙利文凭借百人分析师团队匿名投票机制,筛选了12个大模型,进行了多维度的综合评估,旨在全面了解并系统梳理中国大模型参与者在行研领域的应用表现。n研究目标•了解中国大模型在行研领域的应用价值•探析中国大模型在行研领域的综合表现•梳理中国大模型的参与者现状•评估中国大模型行研领域的发展潜力n本报告的关键问题•参与者发展现状:中国大模型的参与者有哪些?在行研领域的发展现状如何?•行研应用表现:中国大模型在行业研究领域的实际应用表现如何?•报告撰写能力:中国大模型在撰写行业研究报告方面的表现能力如何?•模型基础能力:中国大模型逻辑推理能力、类比迁移能力等基础能力表现如何?•行业理解能力:目前中国大模型在不同行业下的理解能力以及表现如何?大模型评测 | 2023/12中国:人工智能系列 4www.leadleo.com400-072-5588Chapter1大模型行研能力评测背景及方法q本次大模型行研能力测试覆盖1,800+题目,由20人资深研究分析师团队经过严格的双盲评测流程,围绕研究报告撰写能力,模型基础能力以及行业综合理解能力进行综合评测q评测方法通过双盲机制最大程度保证公允性,每名测试人员会随机分配N个模型进行答案搜集,彼此在答案搜集期间互相禁止分享信息,以保持在答案评测阶段的公允性;在评测阶段,每个问题相对应的12个模型答案顺序会随机打乱,保证评测人员对答案不存在任何偏⻅q本次大模型行研能力评测分为三个核心模块,分别为报告撰写能力、模型基础能力以及行业理解能力。报告撰写为本次评测的核心能力,基础能力以及行业理解能力为衍生能力,顾赋予40%/30%/30%的评分权重q本次大模型行业研究能力评测截止于11月30日,所选模型基于目前开放可用的范围。本次评测未涵盖企业尚未开放的大模型,评测结果仅反映当前公开可用模型的数据大模型评测 | 2023/12中国:人工智能系列 5www.leadleo.com400-072-5588中国:人工智能系列大模型评测| 2023/12•行业研究通过分析特定行业的定义、竞争格局、市场规模等关键方面,产出深刻洞察和观点。方法论涵盖从宏观的产业层到微观的产品层的分析,对企业战略、政策制定和金融决策等产生显著影响中国大模型行研能力评测——行研背景概述行研背景概述n行业研究涵盖从宏观的产业层到微观的产品层,各层级决定着相应的研究方法,研究方法论囊括外部宏观因素和内部微观细节的全面分析在行业研究中,产业层、行业层和产品层各自代表宏观经济的不同层次:产业层包含具相似特征的行业群体,行业层着重于特定行业的市场和企业情况,而产品层深入到具体产品或服务的设计、功能和市场定位。研究方法论根据这些层级的宏观到微观差异而有所不同,外部维度考虑政策、经济、环境等因素,而内部维度则包括发展历史、产业链分析等更细致的方面。来源:沙利文、头豹研究院行研范围外部维度内部维度政策经济环境法律发展历程产业链分析发展特征市场规模竞争格局产业层行业层产品层千行百业研究路径价值体现企业规划政务服务金融决策教育培训新闻传媒政策分析竞争格局发展历程行业特征泛娱乐房地产农林牧渔互联网金融医疗采矿教育旅游制造...市场规模行业分类产业链分析行业定义...零售行研价值链重要程度高重要程度低n行业研究通过详尽方法论输出价值观点,对企业策略、金融决策等领域的价值显著行业研究是深入探讨分析特定行业的发展现状和市场动态的全面过程,包含行业定义、分类、竞争格局、市场容量等关键维度。分析师通过分析,生成具有深度的洞察和价值观点,对企业战略规划、政策制定、金融投资决策和教育培训等多个领域产生重要影响。 6www.leadleo.com400-072-5588中国:人工智能系列大模型评测| 2023/12•从基础数据收集到深度分析输出,传统行业研究的流程面临着工具革新滞后、团队知识难以传承、信息溯源复杂性以及研报质量控制的重大挑战,共同影响行业研究的产出效率和创新能力,限制了其发展潜力中国大模型行研能力评测——传统行研发展痛点传统行研发展痛点n传统行业研究在工具更新、知识复用、信息溯源和质量控制方面面临显著挑战,影响其效率和准确性传统行业研究的产出流程包括三个步骤:首先是基础调研,聚焦于一手和二手行业数据的收集;其次是数据加工,涉及整理逻辑、验证数据真实性,并对关键信息进行可视化处理;最后是产出结果,确保全文逻辑一致、可视化清晰并且观点合理。在实际操作中,行业研究面临多个挑战:1)工具更新停滞,自互联网兴起以来,行研主要依赖网络检索和办公软件,近20年未⻅显著革新;2)团队知识难以复用,由于高人员流动性和新成员培养周期⻓,分析师的经验和知识传承困难;3)信息溯源和合规性考量复杂,在应对海量信息和时间成本压力下,信息来源和合规性难以全面保障;4)质量控制难度高,质控人员缺乏专业撰写技能,同时专业分析师缺乏时间进行广泛质控,导致质量监控极为困难。这些核心挑战共同影响着行研的产出效率和创新,阻碍行研进一步发展。来源:沙利文、头豹研究院二手数据统计局数据、文献、网⻚、垂直媒体、招股书、第三方研报、专业数据库......一手数据行业专家访谈、消费者调研(问卷,圆桌)、自行监测数据......研究成果研究报告、演讲稿、招股书行业章节、视频.......撰写行业定义、特征、分类、历史、政策、分析制图产业链、竞争格局建模行业规模与预测模型传统工具Excel行研发展痛点生产工具停滞PPT和Word仍是生产核心工具,20年来没有更新新的行研生产工具溯源难考证面对海量信息和时间成本,信息来源难以考证,信息合规无法全面保障团队知识难以复用行业人员流动性较大,新人成⻓周期较⻓,分析师掌握的经验和知识复用性差质量把控难度高质控人员缺乏专业撰写技能,而专业分析师则通常无暇进行广泛质控1234调研分析产出 7www.leadleo.com400-072-5588中国:人工智能系列大模型评测| 2023/12•数字行研解决方案,结合标准化工具和先进的大模型技术,有效克服了传统行业研究的核心制约因素,显著提升研究的精度和效率,并引领行业研究进入一个效率更高和质量更优的新产出范式中国大模型行研能力评测——数字行研革新数字行研革新(以头豹脑力擎为例)n数字化行研解决方案通过标准化工具和大模型技术,解决了行业研究的核心难题,提高了研究质量和效率,为行业分析带来了高效、精准的新范式数字化行研解决方案为行业研究带来范式革新。该系统通过引入一系列标准化工具,如精准的信息溯源系统和写作规范,极大降低了行业研究的⻔槛,提升了撰写效率,并简化了质量控制流程。此外,数字行研基于大模型的强大底层支持,为分析师提供AI辅助工具,包括专家访谈、智能检索、查重、校对和改写功能,有效减少信息检索的难度,提升文本的准确性和撰写效率,同时加速分析师的专业成⻓。数字行研解决方案不仅解决了传统行业研究中的关键痛点,如信息溯源困难、严峻的质控挑战、知识低复用率和工具更新滞后,还借助大模型技术推动行业研究质量和分析师成⻓速度,引领行业研究向更高效、精准的新范式转变。来源:沙利文、头豹研究院AIGC文本创作辅助分析师智能研报生成高效智能AI生成AI改写AI续写AI检索AI审核头豹写作系统“脑力擎”协同创作词条体系化培训工具可信协同开源数字身份Web3.0AI赋能标准赋能头豹研报产出提质增效接入智能技术工具提效创作沉淀,数据资产化协同创作词条开源信息调研综合分析结果呈现数字行研全面赋能 8www.leadleo.com400-072-5588中国:人工智能系列大模型评测| 2023/12•大模型在数字行业研究中扮演核心⻆色,其功能特性极大提升了研究的效率和质量。本研究聚焦于挖掘中国大模型在行业研究中的实际应用和优势,了解大模型当前的能力边界,以推动行研领域的创新与变革中国大模型行研能力评测——大模型赋能行研大模型赋能行研n大模型在数字行业研究中扮演核心⻆色,其功能特性极大提升了研究的效率和质量。本研究主要聚焦于中国大模型在行业研究中的实际应用和优势,知晓大模型的能力边界,旨在推动行研领域的创新与变革作为数字行研的关键支撑,大模型通过其创作、生成、改写和检索等核心功能,全方位推动行业研究向前发展。首先,大模型扮演第三方AI专家⻆色,协助分析师在研究初期进行框架搭建和内容创作,有效减轻案头工作负担。其次,通过与分析师的有效互动,大模型助力生成结构化内容和洞察,显著提高基础内容的产出效率。进一步,它通过减少文本错误和重复内容,优化校对流程,提升产出质量。最后,大模型能够快速处理海量数据,提供实时信息检索,增强分析师在有限时间内获取全面信息的能力。鉴于此,深入了解中国大模型行业的发展态势和技术创新对引领数字行业研究新范式至关重要。本研究的目标是全面评价