您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[沙利文]:2024年中国大模型行研能力年中评测 - 发现报告

2024年中国大模型行研能力年中评测

信息技术2024-08-27沙利文Y***
AI智能总结
查看更多
2024年中国大模型行研能力年中评测

(摘要版) AI变革行业创新发展 2024 Evaluation of China LLM in Industry ResearchMid-Year Report 人工智能系列研究评测| OPPORTUNITYGROWTHINVESTMENTINSIGHTS 报告提供的任何内容(包括但不限于数据、文字、图表、图像等)均系头豹研究院独有的高度机密性文件(在报告中另行标明出处者除外)。未经头豹研究院事先书面许可,任何人不得以任何方式擅自复制、再造、传播、出版、引用、改编、汇编本报告内容,若有违反上述约定的行为发生,头豹研究院保留采取法律措施、追究相关人员责任的权利。头豹研究院开展的所有商业活动均使用“头豹研究院”或“头豹”的商号、商标,头豹研究院无任何前述名称之外的其他分支机构,也未授权或聘用其他任何第三方代表头豹研究院开展商业活动。 1头豹研究院弗若斯特沙利文咨询(中国) ◼大模型是自然语言处理领域中深度学习技术的高阶应用,其通过对海量文本数据的深度训练,能够全面吸纳并提炼出丰富的语言学知识与语义内涵。这类大模型通常拥有庞大的参数规模,动辄数亿乃至数十亿参数,从而具备了高度精准的自然语言理解与生成能力,几乎能够实现与人类的无障碍交流。其广泛的应用场景涵盖了机器翻译、智能问答、文本摘要等多个领域。从技术发展的视角来看,语言模型的演进路径具有重要的启示意义。最初,模型基于深度神经网络进行训练;随后,业界逐步引入了预训练与微调相结合的模式以提升模型性能;而当前,最前沿的范式已转向预训练结合提示训练,这一转变标志着自然语言处理在模拟人类思维交流方面的又一重大突破。 ◼大模型能够显著增强研究报告的编写效率,通过采纳精细化的询问策略,分析师在研究过程中能够实现效率的最优化。此外,这一模型还能够提供全面的文本编辑支持,包括校正、查重、以及文风润色等功能,从而确保分析师提交的工作成果达到更高的质量标准 大模型技术潮流兴起催生中国大模型百花齐放。沙利文与头豹研究院联手对16个大模型进行综合评估,以深入梳理中国大模型在行研领域的应用表现,为各界提供清晰深入的视角,以应对预训练大模型引发的人工智能浪潮 自2022年底ChatGPT向公众发布以来,AI技术从科技企业的闭门探索正式走向全人类的视野。经过一年多的发展,基于GPT起源的大模型技术已成为国家技术和产业的关键战略要素,受到国际高度重视。在此背景下,中国地区涌现了数百个预训练语言大模型,参与者涵盖了顶尖学术研究机构和互联网科技企业。为梳理中国大模型能力梯队与企业背景,沙利文头豹研究院于2023年12月首次对大模型行研能力进行了多维度综合评测。 半年后,随着大模型能力持续迭代升级,市场竞争格局经历多轮洗牌,当下的大模型市场已焕然一新。不仅百度、阿里、腾讯等互联网大厂继续引领市场,诸如Moonshot、零一万物、百川智能等大模型创业企业也纷纷崭露头角,挑战传统大牌互联网厂商的地位。为反映当前最真实的竞争态势,沙利文头豹研究院与2024年8月,基于最新的大模型能力,梳理并评估了市场上领先的多家大模型,深入分析它们的当前行研综合能力。 研究目的 基于数字行研解决方案的研究和实践基础,头豹研究院联合沙利文凭借百人分析师团队匿名投票机制,筛选了16个大模型,进行了多维度的综合评估,旨在全面了解并系统梳理中国大模型参与者在行研领域的应用表现。 研究目标 •了解中国大模型在行研领域的应用价值•探析中国大模型在行研领域的综合表现•梳理中国大模型的参与者现状•评估中国大模型行研领域的发展潜力 本报告的关键问题 •参与者发展现状:中国大模型的参与者有哪些?在行研领域的发展现状如何?•行研应用表现:中国大模型在行业研究领域的实际应用表现如何?•报告撰写能力:中国大模型在撰写行业研究报告方面的表现能力如何?•模型基础能力:中国大模型逻辑推理能力、类比迁移能力等基础能力表现如何?•行业理解能力:目前中国大模型在不同行业下的理解能力以及表现如何? Chapter1大模型行研能力评测背景及方法 中国大模型行研能力评测——行研背景概述 •行业研究通过深入分析特定行业的定义、竞争格局和市场规模等关键要素,提供深刻的洞察和见解。其方法论涵盖了从宏观的产业层到微观的产品层的全面分析,对企业战略规划、政策制定以及金融决策具有重要影响 ◼行业研究通过深入分析,为企业战略规划和决策提供关键洞察和支持 行业研究是一项全面分析特定行业发展现状和市场动态的深入过程,涵盖行业定义、分类、竞争格局、市场容量等关键维度。分析师通过深入研究,提供深刻的洞察和有价值的观点,为企业战略规划、政策制定、金融投资决策以及教育培训等多个领域提供重要支持。 在行业研究中,产业层、行业层和产品层分别代表宏观经济的不同层次:产业层涵盖具有相似特征的行业群体,行业层侧重于特定行业的市场动态和企业状况,而产品层则深入探讨具体产品或服务的设计、功能及市场定位。研究方法论随着这些层次的宏观到微观差异而有所调整,宏观层面关注政策、经济、环境等因素,而微观层面则包括发展历程、产业链分析等更为细致的内容。 中国大模型行研能力评测——传统行研发展痛点 •从基础数据收集到深度分析输出,传统行业研究流程面临工具更新滞后、团队知识传承困难、信息溯源复杂性以及研报质量控制等重大挑战,这些问题共同制约了行业研究的产出效率和创新能力,限制了其发展潜力 传统行研发展痛点 传统行业研究的产出流程包括三个步骤:首先是基础调研,聚焦于一手和二手行业数据的收集;其次是数据加工,涉及整理逻辑、验证数据真实性,并对关键信息进行可视化处理;最后是产出结果,确保全文逻辑一致、可视化清晰并且观点合理。在实际操作中,行业研究面临多个挑战:1)工具更新停滞,自互联网兴起以来,行研主要依赖网络检索和办公软件,近20年未见显著革新;2)团队知识难以复用,由于高人员流动性和新成员培养周期长,分析师的经验和知识传承困难;3)信息溯源和合规性考量复杂,在应对海量信息和时间成本压力下,信息来源和合规性难以全面保障;4)质量控制难度高,质控人员缺乏专业撰写技能,同时专业分析师缺乏时间进行广泛质控,导致质量监控极为困难。这些核心挑战共同影响着行研的产出效率和创新,阻碍行研进一步发展。 中国大模型行研能力评测——数字行研革新 •数字行研解决方案,结合标准化工具和先进的大模型技术,有效克服了传统行业研究的核心制约因素,显著提升研究的精度和效率,并引领行业研究进入一个效率更高和质量更优的新产出范式 ◼数字化行研解决方案通过标准化工具和大模型技术,解决了行业研究的核心难题,提高了研究质量和效率,为行业分析带来了高效、精准的新范式 数字化行研解决方案为行业研究带来范式革新。该系统通过引入一系列标准化工具,如精准的信息溯源系统和写作规范,极大降低了行业研究的门槛,提升了撰写效率,并简化了质量控制流程。此外,数字行研基于大模型的强大底层支持,为分析师提供AI辅助工具,包括专家访谈、智能检索、查重、校对和改写功能,有效减少信息检索的难度,提升文本的准确性和撰写效率,同时加速分析师的专业成长。 数字行研解决方案不仅解决了传统行业研究中的关键痛点,如信息溯源困难、严峻的质控挑战、知识低复用率和工具更新滞后,还借助大模型技术推动行业研究质量和分析师成长速度,引领行业研究向更高效、精准的新范式转变。 中国大模型行研能力评测——大模型赋能行研 •大模型在数字行业研究中扮演核心角色,其功能特性极大提升了研究的效率和质量。本研究聚焦于挖掘中国大模型在行业研究中的实际应用和优势,了解大模型当前的能力边界,以推动行研领域的创新与变革 大模型赋能行研 ◼大模型在数字行业研究中扮演核心角色,其功能特性极大提升了研究的效率和质量。本研究主要聚焦于中国大模型在行业研究中的实际应用和优势,知晓大模型的能力边界,旨在推动行研领域的创新与变革 作为数字行研的关键支撑,大模型通过其创作、生成、改写和检索等核心功能,全方位推动行业研究向前发展。首先,大模型扮演第三方AI专家角色,协助分析师在研究初期进行框架搭建和内容创作,有效减轻案头工作负担。其次,通过与分析师的有效互动,大模型助力生成结构化内容和洞察,显著提高基础内容的产出效率。进一步,它通过减少文本错误和重复内容,优化校对流程,提升产出质量。最后,大模型能够快速处理海量数据,提供实时信息检索,增强分析师在有限时间内获取全面信息的能力。 鉴于此,深入了解中国大模型行业的发展态势和技术创新对引领数字行业研究新范式至关重要。本研究的目标是全面评价中国领先的大模型技术,深入分析其在行业研究领域的实际应用和优势,全面审视大模型对行业研究发展的影响,以促进数字行业研究的创新和变革。 中国大模型行研能力评测——大模型赋能行研 •大模型在辅助行业研究中,通过“两个创新”和“三个准确”有效赋能行业分析。本次评测将通过报告撰写、行业理解和基础能力三方面测试,全面评估大模型表现,甄别出最能有效辅助分析师生成高质量内容的大模型 大模型赋能行研 ◼大模型通过创造性和准确性双重赋能,提升行业研究的广度和深度,助力生成高质量、洞见性的分析内容 大模型在辅助行业研究中,通过“两个创新”和“三个准确”有效赋能行业分析。“两个创新”包括分析维度的创造性和观点研判的创造性,利用创造力为分析师提供更广泛的视角指引,支持生成具有独创性和深度洞见的研究内容。“三个准确”则涵盖信息数据的准确性、提示词理解的准确性以及细分行业认知的准确性,通过严谨且精准的内容产出,帮助分析师更全面地把握行业动态,从而准确研判行业整体发展趋势。 本次评测将通过三个维度的能力测试:报告撰写能力、行业理解能力及行业研究基础能力,全面评估大模型在创新性和准确性方面的差异化表现,最终甄别出在行业研究中最能有效辅助分析师生成高质量内容的大模型。 来源:沙利文、头豹研究院 中国大模型行研能力评测——评测大模型参与者 •2023年首次对大模型的行研能力进行评测后,沙利文联合头豹研究院发布2024年年中评测更新结果,选取了中国市面上的16个领先大模型进行综合评估,以洞悉中国大模型在行研领域的最新应用进展 大模型行研能力评测参与者 本次对大模型的行业研究能力评测的时间区间定于7月15日至8月2日,期间调用各企业官网在此时间段内性能最佳的模型API。 ◼自ChatGPT推出后,生成式AI在全球范围内引发热潮,逐渐渗透到日常生活和工作场景中。2023年首次对大模型的行研能力进行评测后,沙利文联合头豹研究院发布了2024年年中评测更新结果,选取了中国市面上的16个领先大模型进行综合评估,以洞悉中国大模型在行研领域的最新应用。 中国大模型行研能力评测——评测方法与指标 •本次大模型行研能力测试覆盖了3,540道题目,由20位资深研究分析师和10个中外裁判大模型共同参与评测。经过严格的双盲评测流程,综合评估了大模型在研究报告撰写、基础能力和行业综合理解方面的表现 大模型行研能力评测方法论介绍 A.报告撰写问题 B.模型基础能力问题 C.行业理解问题 •行业定义•行业分类•行业特征•发展历程•产业链分析•市场规模•政策分析•竞争格局 •金融业•医疗业•制造业•互联网科技业•零售业•教育业•运输业 •逻辑推理•知识能力•意图理解•总结提炼•角色扮演•长文本生成 16个中国主流大模型 ◼本次评测覆盖模型三大行研能力板块,结合20人资深研究分析师团队与10个中外裁判大模型,经过严格的双盲评测流程得出,最大程度保证公允性 本次大模型能力测试围绕三大核心板块展开评测:分别是行研报告撰写能力,模型基础能力以及行业理解能力。通过模型在三大核心板块的表现力最终得出评测结果。其中,报告撰写覆盖20篇不同行业报告撰写,涵盖300道问题,分析师长期跟踪报告问题累积超3,000道题;模型能力覆盖6大文本产出核心能力,涵盖60道问题;行业理解覆盖15大核心行业,每个行业涉及12个问题,总计180题。三大维度合计3,