行业研究公司研究宏观策略财报招股书会议纪要 Token 低空经济十五五 AIGC 大模型

计算机行业点评报告：数据是AI的胜负手

信息技术 2023-04-16 王紫敬,张文佳东吴证券听书人

主要观点及总结

数据是AI发展的核心驱动力

AI能力的关键来源：GPT系列模型的能力，特别是语言生成、上下文学习和世界知识等，主要得益于基于海量数据的大型模型训练。
突现能力与范式转变：大模型训练过程中产生的突现能力（Emergent Ability）改变了AI的研究范式，特别是在思维链提示下的解题能力提升显著，这在小到小学数学题，大到复杂问题解决上都有体现。

AI发展的三大支柱

算法与算力：可以通过人才挖掘、工程实践引进或购买海外资产来追赶，但数据积累则需要长期的自我培育和积累。
数据的重要性：数据成为AI发展的关键胜负手，尤其对于构建符合特定文化和价值观的AI模型至关重要。

自主大模型的挑战与机遇

语言价值取向：在全球化背景下，中国发展自主大模型旨在避免文化价值观的被压缩，确保技术的本土化与价值的兼容性。
数据要素市场建设：国家数据局的成立和公共数据开放运营的推进，为国内开发高质量、符合本土需求的大模型提供了重要基础。

投资建议与方向

数据运营：重点关注医保数据的开放机会，推荐久远银海，考虑山大地纬、中科江南等。
数据基础设施：深桑达A、易华录、云赛智联和中国电信被视为最先受益的领域。
数据安全：启明星辰、奇安信、安恒信息和电科网安等企业因其在央国企背景下的数据安全业务积累而受到看好。

风险提示

政策推进不确定性：政策的推进速度和力度可能不及预期。
行业竞争加剧：市场空间广阔，吸引了更多竞争者加入，可能导致市场竞争加剧。

结论

本文分析了AI发展的关键要素——数据的重要性，强调了自主大模型的必要性和挑战，并提出了相应的投资策略和风险考量。通过聚焦数据运营、基础设施建设和数据安全，建议投资者关注能提供高质量数据服务、支持数据流通的公司，同时注意政策风险和市场竞争的动态变化。

找报告就上发现报告（www.fxbaogao.com），这里是目前国内资源最丰富的研报平台之一。我们收录了海量的宏观、行业和公司报告，数量多得惊人，几乎涵盖了所有领域。每天都有无数金融从业者和投资者在这里获取数据，用户群体非常庞大。界面设计简单明了，查找资料特别方便，帮您快速抓住重点，做出更精准的投资决策。

GPT产生的重要能力主要来源于海量数据为基础的大模型训练。GPT-3产生了三个重要能力：语言生成、上下文学习、世界知识，这三个重要能力都源于基于海量数据的大模型预训练：在有3000亿单词的语料上预训练拥有1750亿参数的模型。海量数据为基础的大模型训练产生了突现能力（Emergent Ability），带来了AI研究范式的转变。只有在训练数据量足够大时，量变才能引起质变。GPT相比于此前模型所具备的“泛化能力”，就是以海量数据为基础产生的。数据是AI的胜负手。语言包含价值取向，未来想要不被强势文化压缩生存空间，中国必须发展自己的大模型。算法、算力和数据是AI发展的三大重要基础。展望未来，算法和算力都可以通过挖掘优质人才、引进优秀工程实践，或者直接购买海外优质资产追赶，而培养中文环境的优质数据集、语料库却必须长期自我积累沉淀，因此，我们认为未来数据将成为AI发展的胜负手，并有望为中国训练自己的大模型，走出差异化道路提供重要基础。数据要素市场建设将提供高质量数据的基础。发展自己的大模型需要以国内数据集为重要支撑，而国内目前缺乏高质量的数据集。国家数据要素市场建设将为国内提供高质量的差异化数据提供有力支撑。随着公共数据逐步开放运营，垂直行业数据由严监管向谋发展转变，数据要素市场化发展将使得算法厂商能够获得质量较高的公共和行业数据，提高训练质量和效率，进而为国内开发符合自身发展和价值观的大模型提供支撑。投资建议与相关标的：公共和垂直行业数据敏感性高，需要具备央国企背景的厂商参与。我们看好以下三个环节：1）数据运营：我们预计医保数据将有望成为公共数据放开的第一站，重点推荐久远银海，建议关注山大地纬、中科江南等。2）数据基础设施：有望成为最先放量兑现的环节。重点推荐深桑达A，易华录，云赛智联，建议关注中国电信。3）数据安全：我们看好具备央国企背景和数据安全业务积累的相关厂商。推荐启明星辰、奇安信、安恒信息、电科网安等。风险提示：政策推进不及预期；行业竞争加剧。 1.数据是AI实现强大能力的基础 AI此前发展的困境之一在于只能用特定数据训练特定功能AI，没有泛化能力。在GPT3.5出现之前，人们对通用人工智能的发展非常悲观，只能通过特定的数据来训练特定功能的AI，如果要拓展其他功能，需要再通过特定数据进行训练，训练好的模型不互通，没有全面的泛化能力。 GPT产生的重要能力主要来源于海量数据为基础的大模型训练。根据符尧（2022）的归纳，GPT-3产生了三个重要能力：语言生成（根据提示词补全句子）、上下文学习（按照给定任务示例为新的测试用例生成解决方案）、世界知识（包括事实性知识和尝试），这三个重要能力都源于基于海量数据的大模型预训练：在有3000亿单词的语料上预训练拥有1750亿参数的模型（训练语料的60%来自于2016-2019的C4 + 22%来自于WebText2 + 16%来自于Books + 3%来自于Wikipedia）。图1：GPT-3到GPT-3.5出现的能力海量数据为基础的大模型训练产生了突现能力（Emergent Ability），带来了AI研究范式的转变。在思维链（Chain-of-Thought）提示下，OpenAI的GPT和谷歌的PaLM大模型解题能力准确率都实现了大幅提升。这种突现能力是在模型大小大于100B时才产生的，目前只存在于大模型中。思维链（具备推理步骤）让模型具备了复杂推理能力，能够去解决鸡兔同笼等复杂的小学甚至中学数学题，协助写代码，并且在知识推理层面，不需要通过外部语料库/知识图谱检索，而可以仅仅依赖模型的内部知识，不需要精调。只有在训练数据量足够大时，量变才能引起质变。GPT相比于此前模型所具备的“泛化能力”，或者说具备“常识”的能力，就是以海量数据为基础产生的。图2：某些能力可能不存在于小模型中，需要在大模型中获得图3：对数线性曲线和相变曲线数据是AI的胜负手。算法、算力和数据是AI发展的三大重要基础。展望未来，算法和算力都可以通过挖掘优质人才、引进优秀工程实践，或者直接购买海外优质资产追赶，而培养中文环境的优质数据集、语料库却必须长期自我积累沉淀，因此，我们认为未来数据将成为AI发展的胜负手，并有望为中国训练自己的大模型，走出差异化道路提供重要基础。 2.发展自己的大模型，高质量数据尤其重要语言包含价值取向，未来想要不被强势文化压缩生存空间，中国必须发展自己的大模型。语言中所包含的价值观必然和训练它的人对齐，虽然模型本身不具备价值观取向，但是训练的语料库所包含的价值观将影响模型的输出结果，例如请ChatGPT写诗表扬特朗普和拜登，得到的回答截然不同。在目前的OpenAI语料库中，中文语料只占5%，未来如果想在使用过程中符合中国特有价值取向，不被海外强势文化压缩生存空间，中国就必须发展自己的大模型。图4：请ChatGPT写诗表扬特朗普和拜登得到的不同回答发展自己的大模型需要以国内数据集为重要支撑，国内缺乏可训练的高质量数据。中文互联网环境下，搜索、视频等数据质量普遍低于海外，很多高价值数据都是公共数据和商业数据，尚未开放，没有成熟的可训练的数据集，未来将会对国内大模型发展产生压力。高质量的行业私有数据价值很大。数据存在飞轮效应——使静止的飞轮转动起来，一开始必须用很大的力气推，使飞轮转得越来越快，当达到一定的速度后，飞轮所蕴含的动量和动能就会增大，便能够克服阻力维持转动。一旦打通数据采集、存储、流通的路径，随着数据的积累，产生的价值会快速提升，越来越大。这种效应在高质量的行业私有数据尤其明显。高质量的独特数据也将为国内实现差异化，开发自己的大模型提供有力支撑。 3.数据要素：提供高质量数据的基础国家数据局成立，数字经济从严监管向谋发展。2023年3月，国务院机构改革方案出炉，新组建国家数据局，负责协调推进数据基础制度建设、统筹数据资源整合共享和开发利用，统筹推进数字中国、数字经济、数字社会规划和建设等，由发改委管理，并将网信办、发改委此前承担的部分职责划入国家数据局管理。数字经济的管理，尤其是数据的管理逐步从严监管，走向了谋发展。我们预计未来数据要素市场化建设将进入全面加速阶段。图5：国家数据局设立各地密集开展公共数据开放运营试点，有望提供高质量数据资源。例如此前杭州已经明确了推进节奏：目标2023年底前，发布首批授权的公共数据资源目录，完成公共数据授权运营平台搭建；2025年底前，形成20个以上有价值、可推广的数据产品和服务。部分地区已经开始开发相关数据产品并挂网交易，如德阳首批数据元件已经在深圳数交所完成挂网交易。图6：德阳数据元件使用清单（节选）数据要素市场建设将为国内训练自己的大模型提供坚实基础，未来有望成为国内寻求差异化发展的重要支撑。随着公共数据逐步开放运营，垂直行业数据由严监管向谋发展转变，数据要素市场化发展将使得算法厂商能够获得质量较高的公共和行业数据，提高训练质量和效率，进而为国内开发符合自身发展和价值观的大模型提供支撑。 4.投资建议与相关标的 AI的发展离不开数据作为基础，公共和垂直行业数据敏感性高，需要具备央国企背景的厂商参与。我们看好以下三个方向：数据运营：公共数据放开离不开第三方数据服务商提供运营支撑，建议关注此前掌握数据或者数据接口的厂商。我们预计医保数据将有望成为公共数据放开的第一站，重点推荐久远银海，建议关注山大地纬、中科江南等。数据基础设施：是发展AI算力、开展数据运营的基础，有望成为最先放量兑现的环节。重点推荐深桑达A，易华录，云赛智联，建议关注中国电信。数据安全：是贯穿AI发展、数据存储流通运营全过程的重要保障需求，我们看好具备央国企背景和数据安全业务积累的相关厂商。推荐启明星辰、奇安信、安恒信息、电科网安等。 5.风险提示政策推进不及预期。相关政策推进受到多种因素影响，节奏和力度可能不及预期。行业竞争加剧。行业市场空间广阔，可能吸引更多公司参与行业竞争。

点击免费查看完整报告

计算机行业点评报告：数据是AI的胜负手

主要观点及总结

数据是AI发展的核心驱动力

AI发展的三大支柱

自主大模型的挑战与机遇

投资建议与方向

风险提示

结论

你可能感兴趣

天风计算机昆仑万维Ai应用胜负手多模态双龙之被低估的全球多模态

2026年AI应用的胜负手多模态从AI视频到机器人自动驾驶天风计算机缪

天风计算机昆仑万维Ai应用胜负手多模态双龙之被低估的全

8月PMI数据点评：疫后经济进入“新常态”，地产是胜负手

计算机行业点评报告：公共数据顶层设计发布，授权运营是核心

平安集团2019年报点评：盈利释放较为保守，寿险改革是2020年业绩的胜负手

招商计算机接着昨天DS的点评阿里云腾讯云和AI应用受益是没有争议

计算机行业跟踪报告：国产AI大模型使用量大幅增长，关注AI产业的生态构建和数据基础设施建设

计算机行业点评报告：自主可控是中国科技发展的前提

计算机行业点评报告：工业信创是新型工业化的重要组成