您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[中航证券]:科技专题研究:ChatGPT狂飙破壁,现象级AI应用引发范式革命 - 发现报告
当前位置:首页/行业研究/报告详情/

科技专题研究:ChatGPT狂飙破壁,现象级AI应用引发范式革命

信息技术2023-02-16刘牧野中航证券小***
科技专题研究:ChatGPT狂飙破壁,现象级AI应用引发范式革命

科技专题研究2023年2月16日中航证券研究所发布证券研究报告请务必阅读正文后的免责条款部分行业评级:增持ChatGPT狂飙破壁,现象级AI应用引发范式革命分析师:刘牧野证券执业证书号:S0640522040001股市有风险入市需谨慎 核心观点◼现象级AI应用狂飙破壁,ChatGPT引发范式革命:ChatGPT推出仅两个月后,即2023年1月末的月活用户已经突破了1亿,成为史上用户增长速度最快的消费级应用程序。OpenAI在2023年2月1日推出订阅服务,每月收费20美元,拉开了人工智能在C端变现的帷幕。由此引发了全球范围的关注和讨论,国内大多数头部科技企业表示,已经拥有、在研对标ChatGPT相关的模型及产品。◼AI模型运算规模增长,算力缺口巨大:基于大量数据训练、拥有巨量参数的AI预训练模型—GPT-3,引发了AIGC技术的质变,从而诞生ChatGPT。然而,预训练模型参数数量、训练数据规模将按照300 倍/年的趋势增长,现有算力距离AI应用存巨大鸿沟。运算规模的增长,带动了对AI训练芯片单点算力提升的需求,并对数据传输速度提出了更高的要求。◼AIGC跨越数据鸿沟,合成数据与日精进:ChatGPT的火速出圈,将AIGC推向新的高度。数据是人工智能的燃料和驱动力,人工智能发展所需的海量数据也能通过AIGC 技术生成、合成出来,即合成数据(synthetic data )。合成数据有望解决人工智能和数字经济的数据供给问题。Gartner 预测,到2030 年AI 模型使用的绝大部分数据将由人工智能合成。◼建议关注:◼GPU :景嘉微、航锦科技,和未上市的地平线、黑芝麻、摩尔线程;◼AI训练芯片:寒武纪、商汤(港股)、燧原科技(未上市);◼存算一体化:恒烁股份、东芯股份;◼光模块:中际旭创、光迅科技、华工科技、天孚通信、德科立、源杰科技;◼硅光芯片:光库科技、声光电科、赛微电子;◼合成数据潜在受益标的:百度、阿里、腾讯、金山办公、中国电信。◼风险提示:AI算法、模型存较高不确定性,AI技术发展不及预期;ChatGPT用户付费意愿弱,客户需求不及预期;针对AI的监管政策收紧 一、现象级AI应用狂飙破壁,ChatGPT引发范式革命二、巨量数据规模引发质变,AI模型算力紧缺目录四、风险提示三、AIGC跨越数据鸿沟,合成数据与日精进 ChatGPT用户量两月破亿,现象级应用横空出世资料来源:UBS,中航证券研究所◼ChatGPT(Chat Generative Pre-trained Transformer)是由OpenAI开发的人工智能聊天机器人程序,于2022年11月推出。据瑞银集团,ChatGPT推出仅两个月后,即2023年1月末的月活用户已经突破了1亿,成为史上用户增长速度最快的消费级应用程序。作为比较,TikTok达到1亿用户用了9个月,Instagram花了2年半的时间。图:应用程序达到1亿用户量所需时间(月数) 智能化生产工具,提高生产效率资料来源:Openai,百度,中航证券研究所◼ChatGPT是一个虚拟助手,可以帮助用户解决问题、提供信息和建议。通过人工智能技术实现自然语言处理和自然语言理解,ChatGPT能够快速准确地回答用户提出的问题。可以通过文本或语音与用户交互,并通过不断学习和改进来提高能力和服务质量。现有使用案例中,用户可通过ChapGPT实现代码生成、修改程序bug、写诗等。图:根据要求连续改进回答图:提升编程效率图:原创七言绝句 重新定义搜索,跨时代AI产品资料来源:中航证券研究所整理◼ChatGPT在智能化方面有跨越式进步,在多轮对话能力以及对话交互友好性上展示了惊艳效果。能够较准确理解问题,把生成的答案用易于人类理解的语言组织起来,生成类似人类语言的文本答案。同时,ChatGPT的模型优化目标为有用、可信、无害,在道德上友善,符合大众的道德观。图:ChatGPT特点智能化支持意图识别和逻辑推理支持多轮次连续对话支持在一个prompt(提示)中同时有多个问题支持上下文理解,以回答某些假设性的问题人性化主动承认错误,对用户指出的错误进行答案优化。质疑不正确的问题。承认自身的无知,承认对专业技术的不了解道德友善,驳回潜在的种族主义或性别歧视提示 GPT-3大模型驱动,引发AIGC范式革命资料来源:腾讯,中航证券研究所◼以ChatGPT为代表的AIGC应用在2022 年的爆发,主要是得益于深度学习模型方面的技术创新。不断创新的生成算法、预训练模型、多模态等技术融合带来了AIGC (AI Generated Content)技术变革,拥有通用性、基础性多模态、参数多、训练数据量大、生成内容高质稳定等特征的AIGC 模型成为了自动化内容生产的“工厂”和“流水线”。◼基础层是核心,GPT-3模型起关键支撑作用。GPT-3一个大规模的通用语言模型,已经在来自各种来源的大量文本数据上进行了训练。能够产生类似人类的反应,并可用于广泛的语言相关任务。◼ChatGPT基于目前较新的GPT-3.5模型版本进行研发,专注于自然语言对话,接受了更广泛的语言模式和风格培训,因此,能较GPT-3产生更多样化和微妙的响应。图:AIGC产业架构以预训练大规模模型为基础搭建的AIGC 技术基础设施层。在基础层上生成场景化、定制化、个性化的小模型,实现不同行业、垂直领域的流水线式部署面向C 端用户的文字、图片、音视频等内容生成服务基础层中间层应用层预训练模型重直化、场景化、个性化模型图像、语音和文字生成等各种各样的AIGC的应用 C端应用时代降临,拉开AI商业变现帷幕资料来源:腾讯,中航证券研究所◼OpenAI在2023年2月1日推出订阅服务,名为ChatGPTPlus,每月收费20美元。订阅用户将获得全天候服务,并在高峰时段享有优先访问。用户还可提前使用新功能及改进功能,应用的响应时间也更快。OpenAI预计2023年ChatGPT将实现2亿美元的收入。◼微软计划将旗下所有产品全线整合ChatGPT。除了搜索引擎必应、办公软件Office外,微软还将在云计算平台Azure中整合ChatGPT,Azure的OpenAI服务将允许开发者访问AI模型。图:ChatGPT商业模式基础层中间层应用层产品/服务GPT-3大规模语言模型ChatGPT小模型、Azure聊天机器人APP、必应、Office收费模式对模型的API调用进行收费,属于to B端软件即服务(SaaS)允许开发者访问AI模型,属于to B端模型即服务(MaaS)C端用户通过订阅模式获得更加智能化的服务 政策反应迅速,国内科技巨头布局资料来源:机器之心,中航证券研究所◼2023年2月13日,北京市经济和信息化局发布《2022年北京人工智能产业发展白皮书》,提出全面夯实人工智能产业发展底座。支持头部企业打造对标ChatGPT的大模型,着力构建开源框架和通用大模型的应用生态。加强人工智能算力基础设施布局。加速人工智能基础数据供给。◼国内科技企业纷纷对ChatGPT发表看法,百度、华为、腾讯、阿里巴巴等大多数头部企业表示,已经拥有、在研对标ChatGPT相关的模型及产品。图:国内科技企业现有技术储备将在2023年3 月上线百度版ChatGPT:「文心一言」公司2020 年在大模型领域开始有布局,2021 年基于昇腾AI 与鹏城实验室联合发布了鹏程相关技术储备包括「混元」系列AI 大模型、智能创作助手文涌(Effidit)等提出业界首个通用的统一大模型(模态、任务和架构)M6-OFA,可能将AI 大模型技术与钉钉生产力工具深度结合将推出「产业版」ChatGPT——ChatJD,ChatJD将以「125」计划作为落地应用路线图,包含一个平台、两个领域、五个应用。 关注AI三驾马车投资机会资料来源:中国信通院,中航证券研究所◼算法、算力和数据是人工智能发展的三驾马车,也是推动人工智能发展的重要基础。◼算法层面,超大规模预训练模型推动AI效果不断提升。当前,预训练模型参数数量、训练数据规模按照300 倍/年的趋势增长,继续通过增大模型和增加训练数据仍是短期内演进方向。◼算力层面,单点算力持续提升,算力定制化、多元化成为重要发展趋势。计算技术围绕数据处理、数据存储、数据交互三大能力要素演进升级,类脑芯片、量子计算等方向持续探索。◼数据层面,以深度学习为代表的人工智能技术需要大量的标注数据,这也催生了专门的技术和服务,随着面向问题的不断具体化和深入,数据服务走向精细化和定制化。算法算力数据OpenAI谷歌Meta百度阿里腾讯华为拓尔思商汤光环新网科大讯飞海量数据景嘉微寒武纪地平线...东芯股份恒烁股份龙芯中科海光信息中国长城国盾量子数据港...光迅科技中科曙光中际旭创浪潮信息中国联通中国移动中国电信...润泽科技英伟达神州数码 一、现象级AI应用狂飙破壁,ChatGPT引发范式革命二、巨量数据规模引发质变,AI模型算力紧缺目录四、风险提示三、AIGC跨越数据鸿沟,合成数据与日精进 大型预训练模型引发质变资料来源:腾讯,中航证券研究所◼Transformer基础算法模型的出现,为NLP和CV训练领域提供了强大支持。OpenAI的GPT预训练模型,以及百度的ERNIE模型,都是基于Transformer模型建立。◼Al 预训练模型,又称为大模型、基础模型(foundation model),即基于大量数据(通常使用大规模自我监督学习)训练的、拥有巨量参数的模型,能适应广泛的下游任务。预训练模型能够满足真实内容消费场景中的灵活多变、高精度、高质量等需求。◼随着2018 年谷歌发布基于Transformer 机器学习方法的自然语言处理预训练模型BERT,人工智能领域进入了大炼模型参数的预训练模型时代。预训练模型成为AI 技术发展的范式变革,许多跨领域的AI 系统将直接建立在预训练模型上。基础的生成算法模型不断突破创新2014年VAE、生成对抗网络GAN2015年基于流生成的模型、扩散模型2017年Transformer模型2020年神经辐射场NeRF2021年CLIP模型预训练模型引发AIGC技术能力质变自然语言处理(NLP)预训练模型谷歌:LAMDA、BERTOpenAI:GPT系列百度:ERNIE系列计算机视觉(CV)预训练模型微软:Florence多模态预训练模型Deep Mind:GatoOpenAI:CLIP&DALL-E AI模型数据规模增长,AI算力需求井喷资料来源:中国信通院,中航证券研究所◼当前,预训练模型参数数量、训练数据规模按照300 倍/年的趋势增长,继续通过增大模型和增加训练数据仍是短期内演进方向。未来使用更多种图像编码、更多种语言、以及更多类型数据的预训练模型将会涌现。◼当前算力距离AI应用存巨大鸿沟。根据Open AI 数据,模型计算量增长速度远超人工智能硬件算力增长速度,存在万倍差距。英特尔表示,目前的计算、存储和网络基础设施远不足以实现元宇宙愿景,而要想实现真正的元宇宙,目前的计算能力需量要再提高1000倍。图:大模型参数量和训练数据规模增长迅速 AI模型数据规模增长,AI算力需求井喷资料来源:华为,IDC,中航证券研究所◼据IDC预计,2021-2026年期间,中国智能算力规模年复合增长率达52.3%。2022年智能算力规模将达到268.0 EFLOPS,预计到2026年智能算力规模将进入每秒十万亿亿次浮点计算(ZFLOPS)级别,达到1,271.4 EFLOPS。◼运算数据规模的增长,带动了对AI训练芯片单点算力提升的需求,并对数据传输速度提出了更高的要求。图:中国智能算力规模百亿亿次浮点运算/秒(EFLOPS)图:2012至2019年算力需求增长近30万倍 算力升级:AI训练芯片空间广阔资料来源:IDC,松鼠厂,中航证券研究所◼IDC预计,到2025年人工智能芯片市场规模将达726亿美元。IDC全球范围调研显示,人工智能芯片搭载率将持续增高。目前每台人工智能服务器上普遍多配置2个GPU,未来18个月,GPU、ASIC和FPGA的搭载率均会上升。通用性递