您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。 [东吴证券]:计算机行业点评报告:数据是AI的胜负手 - 发现报告

计算机行业点评报告:数据是AI的胜负手

信息技术 2023-04-16 王紫敬,张文佳 东吴证券 听书人
报告封面

GPT产生的重要能力主要来源于海量数据为基础的大模型训练。GPT-3产生了三个重要能力:语言生成、上下文学习、世界知识,这三个重要能力都源于基于海量数据的大模型预训练:在有3000亿单词的语料上预训练拥有1750亿参数的模型。海量数据为基础的大模型训练产生了突现能力(Emergent Ability),带来了AI研究范式的转变。只有在训练数据量足够大时,量变才能引起质变。GPT相比于此前模型所具备的“泛化能力”,就是以海量数据为基础产生的。 数据是AI的胜负手。语言包含价值取向,未来想要不被强势文化压缩生存空间,中国必须发展自己的大模型。算法、算力和数据是AI发展的三大重要基础。展望未来,算法和算力都可以通过挖掘优质人才、引进优秀工程实践,或者直接购买海外优质资产追赶,而培养中文环境的优质数据集、语料库却必须长期自我积累沉淀,因此,我们认为未来数据将成为AI发展的胜负手,并有望为中国训练自己的大模型,走出差异化道路提供重要基础。 数据要素市场建设将提供高质量数据的基础。发展自己的大模型需要以国内数据集为重要支撑,而国内目前缺乏高质量的数据集。国家数据要素市场建设将为国内提供高质量的差异化数据提供有力支撑。随着公共数据逐步开放运营,垂直行业数据由严监管向谋发展转变,数据要素市场化发展将使得算法厂商能够获得质量较高的公共和行业数据,提高训练质量和效率,进而为国内开发符合自身发展和价值观的大模型提供支撑。 投资建议与相关标的:公共和垂直行业数据敏感性高,需要具备央国企背景的厂商参与。我们看好以下三个环节:1)数据运营:我们预计医保数据将有望成为公共数据放开的第一站,重点推荐久远银海,建议关注山大地纬、中科江南等。2)数据基础设施:有望成为最先放量兑现的环节。重点推荐深桑达A,易华录,云赛智联,建议关注中国电信。3)数据安全:我们看好具备央国企背景和数据安全业务积累的相关厂商。 推荐启明星辰、奇安信、安恒信息、电科网安等。 风险提示:政策推进不及预期;行业竞争加剧。 1.数据是AI实现强大能力的基础 AI此前发展的困境之一在于只能用特定数据训练特定功能AI,没有泛化能力。在GPT3.5出现之前,人们对通用人工智能的发展非常悲观,只能通过特定的数据来训练特定功能的AI,如果要拓展其他功能,需要再通过特定数据进行训练,训练好的模型不互通,没有全面的泛化能力。 GPT产生的重要能力主要来源于海量数据为基础的大模型训练。根据符尧(2022)的归纳,GPT-3产生了三个重要能力:语言生成(根据提示词补全句子)、上下文学习(按照给定任务示例为新的测试用例生成解决方案)、世界知识(包括事实性知识和尝试),这三个重要能力都源于基于海量数据的大模型预训练:在有3000亿单词的语料上预训练拥有1750亿参数的模型(训练语料的60%来自于2016-2019的C4 + 22%来自于WebText2 + 16%来自于Books + 3%来自于Wikipedia)。 图1:GPT-3到GPT-3.5出现的能力 海量数据为基础的大模型训练产生了突现能力(Emergent Ability),带来了AI研究范式的转变。在思维链(Chain-of-Thought)提示下,OpenAI的GPT和谷歌的PaLM大模型解题能力准确率都实现了大幅提升。这种突现能力是在模型大小大于100B时才产生的,目前只存在于大模型中。思维链(具备推理步骤)让模型具备了复杂推理能力,能够去解决鸡兔同笼等复杂的小学甚至中学数学题,协助写代码,并且在知识推理层面,不需要通过外部语料库/知识图谱检索,而可以仅仅依赖模型的内部知识,不需要精调。 只有在训练数据量足够大时,量变才能引起质变。GPT相比于此前模型所具备的“泛化能力”,或者说具备“常识”的能力,就是以海量数据为基础产生的。 图2:某些能力可能不存在于小模型中,需要在大模型中获得 图3:对数线性曲线和相变曲线 数据是AI的胜负手。算法、算力和数据是AI发展的三大重要基础。展望未来,算法和算力都可以通过挖掘优质人才、引进优秀工程实践,或者直接购买海外优质资产追赶,而培养中文环境的优质数据集、语料库却必须长期自我积累沉淀,因此,我们认为未来数据将成为AI发展的胜负手,并有望为中国训练自己的大模型,走出差异化道路提供重要基础。 2.发展自己的大模型,高质量数据尤其重要 语言包含价值取向,未来想要不被强势文化压缩生存空间,中国必须发展自己的大模型。语言中所包含的价值观必然和训练它的人对齐,虽然模型本身不具备价值观取向,但是训练的语料库所包含的价值观将影响模型的输出结果,例如请ChatGPT写诗表扬特朗普和拜登,得到的回答截然不同。在目前的OpenAI语料库中,中文语料只占5%,未来如果想在使用过程中符合中国特有价值取向,不被海外强势文化压缩生存空间,中国就必须发展自己的大模型。 图4:请ChatGPT写诗表扬特朗普和拜登得到的不同回答 发展自己的大模型需要以国内数据集为重要支撑,国内缺乏可训练的高质量数据。 中文互联网环境下,搜索、视频等数据质量普遍低于海外,很多高价值数据都是公共数据和商业数据,尚未开放,没有成熟的可训练的数据集,未来将会对国内大模型发展产生压力。 高质量的行业私有数据价值很大。数据存在飞轮效应——使静止的飞轮转动起来,一开始必须用很大的力气推,使飞轮转得越来越快,当达到一定的速度后,飞轮所蕴含的动量和动能就会增大,便能够克服阻力维持转动。一旦打通数据采集、存储、流通的路径,随着数据的积累,产生的价值会快速提升,越来越大。这种效应在高质量的行业私有数据尤其明显。高质量的独特数据也将为国内实现差异化,开发自己的大模型提供有力支撑。 3.数据要素:提供高质量数据的基础 国家数据局成立,数字经济从严监管向谋发展。2023年3月,国务院机构改革方案出炉,新组建国家数据局,负责协调推进数据基础制度建设、统筹数据资源整合共享和开发利用,统筹推进数字中国、数字经济、数字社会规划和建设等,由发改委管理,并将网信办、发改委此前承担的部分职责划入国家数据局管理。数字经济的管理,尤其是数据的管理逐步从严监管,走向了谋发展。我们预计未来数据要素市场化建设将进入全面加速阶段。 图5:国家数据局设立 各地密集开展公共数据开放运营试点,有望提供高质量数据资源。例如此前杭州已经明确了推进节奏:目标2023年底前,发布首批授权的公共数据资源目录,完成公共数据授权运营平台搭建;2025年底前,形成20个以上有价值、可推广的数据产品和服务。部分地区已经开始开发相关数据产品并挂网交易,如德阳首批数据元件已经在深圳数交所完成挂网交易。 图6:德阳数据元件使用清单(节选) 数据要素市场建设将为国内训练自己的大模型提供坚实基础,未来有望成为国内寻求差异化发展的重要支撑。随着公共数据逐步开放运营,垂直行业数据由严监管向谋发展转变,数据要素市场化发展将使得算法厂商能够获得质量较高的公共和行业数据,提高训练质量和效率,进而为国内开发符合自身发展和价值观的大模型提供支撑。 4.投资建议与相关标的 AI的发展离不开数据作为基础,公共和垂直行业数据敏感性高,需要具备央国企背景的厂商参与。我们看好以下三个方向: 数据运营:公共数据放开离不开第三方数据服务商提供运营支撑,建议关注此前掌握数据或者数据接口的厂商。我们预计医保数据将有望成为公共数据放开的第一站,重点推荐久远银海,建议关注山大地纬、中科江南等。 数据基础设施:是发展AI算力、开展数据运营的基础,有望成为最先放量兑现的环节。重点推荐深桑达A,易华录,云赛智联,建议关注中国电信。 数据安全:是贯穿AI发展、数据存储流通运营全过程的重要保障需求,我们看好具备央国企背景和数据安全业务积累的相关厂商。推荐启明星辰、奇安信、安恒信息、电科网安等。 5.风险提示 政策推进不及预期。相关政策推进受到多种因素影响,节奏和力度可能不及预期。 行业竞争加剧。行业市场空间广阔,可能吸引更多公司参与行业竞争。