AI智能总结
AzureOpenAI获GPT能力,大陆企业率先布局 随着3月份的两次升级,目前微软Azure上的OpenAI服务已经可以使用ChatGPT和GPT-4模型。虽然国内大模型当前发展十分迅速,但我们认为,在数据、算力、算法等因素的限制下,一段时期内AIGC行业仍会由微软等海外大厂主导,且AI发展日新月异,当前来看国内的商用GPT使用权限依然是稀缺资源,受限于GPT-4模型当前的高定价、微软对AzureOpenAI的权限管理以及数据跨境的政策监管,我们认为,大陆现有的Azure OpenAI客户凭借其GPT模型使用权限的短期稀缺性以及相对成熟应对政策监管的能力,有望进一步巩固在市场中的领先地位,构筑起竞争壁垒。 ► 技术层面海外大模型仍占据领先地位 数据方面,英文互联网数据质量相对较高,清洗起来也相对容易;尽管中文互联网的数据量很大,但数据质量存在一定差距,且互联网巨头之间的数据相互封闭,数据孤岛化现象严重,这使得数据抓取变得相对困难。算力方面,中国的AI大模型发展正受到算力“卡脖子”,更具确定性的解决方案还是依靠于自研芯片和服务器,当前国产顶级芯片仍难以超越英伟达和AMD高端产品,预期全球市场仍将由海外龙头垄断。算法方面,GLUE测评排名中,前十名得分均在90分以上,已经十分接近乃至超越人类平均水平,其中来自国内得分大模型仅有百度ERNIE及阿里AliceMind,在英文回答水平上海外顶级模型仍占据绝对优势,而国产大模型在攻克了数据和算力的难关后有望另辟蹊径实现中文水平上的突破。 ►素 Azure OpenAI进驻中国香港,数据安全为关键因 Azure OpenAI在中国香港实装GPT-4模型及ChatGPT,大陆企业使用速度预计会有显著提升,对于国内企业来说,此次 Azure OpenAI在中国香港实装GPT-4和ChatGPT意味着其可以更便捷地获取和应用先进的AI技术,同时数据传输速度和安全性都有望大幅提升。由于使用如Azure OpenAI等海外大模型需要将数据跨境传输,因此受到境内和境外的数据传输政策限制,内部来看,《数据出境安全评估办法》规定涉及重要数据和个人信息的出境,必须接受安全评估,不排除后期数据出境限制更加严格,使得GPT模型使用受限;外部来看,2019年美国《国家安全和个人数据保护法案》(尚未生效),对于美国用户数据出境,尤其是传输至中国进行明确的限制,若企业使用海外大模型数据出境经由美国,则也需面对这方面的数据传输风险。 投资建议: 我们认为AIGC模型迭代正在加速,AI发展日新月异,当前海外顶级模型仍占据领先地位,已接入Azure OpenAI获得原生GPT-4和ChatGPT赋能的企业有着一定的先发优势,可率先开始根据需求部署AI解决方案和应用;同时,国内大模型有望在特定领域及中文处理上另辟蹊径实现赶超。后续国内率先落地Azure OpenAI应用的标的有望受益,包括万科 (2202.HK)、创梦天地(1119.HK)、医脉通(2192.HK),以及国内已实现自研大模型的企业,包括阿里巴巴(9988.HK)、腾讯(0700.HK)、百度(9888.HK)。 风险提示 技术落地商业化不及预期;人工智能在部分领域应用的监管风险;数据出海的政策风险。 1.AzureOpenAI重磅升级,数家企业获得GPT加持 1.1.Azure接入GPT-4及ChatGPT,大陆公司获GPT赋能 AzureOpenAI为企业赋能AI能力。微软Azure OpenAI服务最早于2021年11月推出,允许通过REST API访问OpenAI的强大语言模型,包括GPT-3、Codex和Embeddings模型系列。这些模型可以轻松适应特定的任务,包括但不限于内容生成、汇总、语义搜索和自然语言到代码的转换。用户可以通过REST API、Python SDK或Azure OpenAI Studio中基于Web的界面访问该服务。 Azure获得ChatGPT及GPT-4,AI能力进一步强化。3月10日,微软宣布,可以在基于云计算的操作系统Azure上的OpenAI服务中使用ChatGPT;此后3月21日,微软又宣布AzureOpenAI加入GPT-4。开发者可以将定制的人工智能驱动的体验,直接整合到他们自己的应用程序中,包括增强现有的机器人来处理突发问题,以实现更快的客户支持解决方案,创建具有个性化优惠的新广告副本等。 大陆可通过Azure使用OpenAIGPT模型,数家公司已率先接入。中国大陆企业 如果需要使用大模型,由于受到芯片进口的限制,目前可行的路径一是使用本土算力平台及自研模型,如百度文心一言、华为盘古模型;二是通过数据出海接入海外云平台及大模型,如Azure OpenAI,目前其已经加入GPT-4模型及ChatGPT,因此国内的AzureOpenAI商业用户可以直接使用ChatGPT。虽然国内大模型当前发展十分迅速,但我们认为,在算力和数据等因素的限制下,一段时期内AIGC行业仍会由微软等海外大厂主导,且AI发展日新月异,国内已接入Azure OpenAI的数家公司可率先开始软件和服务的适配,有十分显著的先发优势。 截至目前大陆已有数家公司接入AzureOpenAI,因此已经能实现GPT模型以及ChatGPT的使用,其中五家为A股及港股上市公司,目前对GPT模型的使用主要集中在广告营销、影音娱乐、游戏开发、数据分析等,以及万科将其用于公司内部的管理系统。总体而言不论是将AI作为一项业务增量,或是辅助营销与管理,我们认为GPT-4和ChatGPT都将为公司赋能,使业务焕发活力。 1.2.GPT模型在大陆仍为稀缺资源,看好现有参与者 GPT模型权限仍是稀缺资源,看好现有参与者发挥其先发优势。当前来看国内的商用GPT使用权限依然是稀缺资源,一方面Azure OpenAI中GPT-4的价格是GPT- 3.5的15倍起,另一方面目前Azure OpenAI服务主要面向已经与Microsoft建立合作关系、用例风险较低以及承诺融入缓解措施的企业客户。此外,不仅是微软对AzureOpenAI的限制和监管手段,由于使用AzureOpenAI需要接入海外数据中心,数据出境在政策层面受到数据安全法等法规的严格限制。我们认为,短期内大陆GPT模型使用权限具有稀缺性,现有的Azure OpenAI客户凭借其率先开始软件和服务适配以及相对成熟应对政策监管的能力,有望进一步巩固在市场中的领先地位,构筑起竞争壁垒。 2.技术层面来看大模型仍是海外巨头更优 2.1.技术加速成熟下AIGC模型百花齐放 ChatGPT:ChatGPT是一款基于人工智能技术的自然语言处理工具,由OpenAI与微软合作于2022年11月推出,它能与用户进行类似人类的对话,还能提供更多功能。 ChatGPT是一个聊天机器人,针对对话进行了优化;而GPT是一种语言模型,是ChatGPT背后的“大脑”,它可以定制以实现不同的功能,如文本摘要、文案撰写、解析文本和翻译语言等,此外,它还提供了一个开放的API,让任何人都可以利用GPT-3或GPT-4构建自己的AI应用程序,并使用其功能。 Bard:谷歌的Bard是一个实验性的对话式AI服务,由LaMDA(Language Model for Dialogue Applications)驱动,目前已向部分测试者开放,Bard的目标是整合世界各地的知识,以及大型语言模型的力量、智能和创造力。它从网络上获取信息,提供新颖、高质量的回答。 文心一言:百度文心一言(ERNIE Bot)是百度全新一代知识增强大语言模型,能够与人对话互动,回答问题,协助创作,高效便捷地帮助人们获取信息、知识和灵感。文心一言是知识增强的大语言模型,基于飞桨深度学习平台和ERNIE、Plato模型,持续从海量数据和大规模知识中融合学习具备知识增强、检索增强和对话增强的技术特色。 盘古:华为即将推出其最新的盘古大模型4,将是超过任何其他类似应用的最先进、最强大的自然语言处理应用。根据华为云官网显示,华为即将上线的“盘古系列AI大模型”分别为:NLP大模型、CV大模型、以及科学计算大模型。其中,盘古“NLP大模型”是被认为最接近人类中文理解能力的AI大模型,而盘古“CV大模型”首次兼顾了图像判别与生成能力。 通义千问:作为最早投入预训练语言模型研究的团队之一,阿里达摩院研发了阿里通义AliceMind,该体系涵盖预训练模型、多语言预训练模型、超大中文预训练模型等,具备阅读理解、机器翻译、对话问答、文档处理等多种能力。 混元:腾讯的混元AI大模型目前主要涵盖自然语言处理(Natural language processing;NLP)、电脑视觉(Computer vision)、多模块等基础模型;预期未来将进一步结合音讯、影像、视讯等多模块信息,打造更强大的多模块AI大模型。 2.2.数据端:英文天然数据优势,中文数据仍有改进空间 英文互联网具备天生数据优势,中文数据孤岛化严重。英文互联网上的数据质量相对较高,清洗起来也相对容易,因为英文互联网上有大量相对准确的知识类信息, 这些信息可以用于模型训练,故ChatGPT能够很好地回答问题。然而,尽管中文互联 网产生的数据量很大,但数据质量却与英文数据存在一定差距,这可能会影响模型训练的效果,从而对中文大型语言模型的发展产生一定的制约。此外,中国国内的数据大量存储于移动端APP中,并且互联网巨头之间的数据相互封闭,导致数据孤岛化现象严重,这使得数据抓取变得相对困难。这种情况可能会限制数据的共享与交流,进一步加大中美在大型语言模型发展方面的数据数量和质量差距。 短期来看英文大模型仍占据数据资源优势。以复旦大学发布的语言模型MOSS为例,由于受到中文互联网数据的限制,其模型基座学习了3000多亿个英文单词,中文词语只学了约300亿个,因此在英文上表现更好。为了缩小数据数量和质量的差距,中国的开发者需要构建更多高质量的中文数据集、优化数据清洗技术,且大厂需加强数据共享和交流,短期来看我们认为在数据资源上以英文为主的大模型仍占据着较大的优势。 2.3.算力端:进口受限,海外巨头仍将长期领先 高端GPU进口受限,自研芯片是破局关键。GPU是当前全球数据中心处理AI应用的标配,占据超九成市场份额。根据BCG数据,2018年和2019年中国大陆在半导体制造业的市场份额正式超越美国,随着中美博弈不断激化、以及美国对中国半导体行业发展速度的警惕,2022年8月,美国政府推出的出口许可管制限制英伟达和AMD向中国和俄罗斯销售高端人工智能芯片,包括英伟达A100、H100,AMD MI100、MI200等,当前大陆的高端芯片均为存货,剩余使用寿命在4-6年,主要的替代品为英伟达A800芯片,计算性能与A100基本相同,但数据传输速度被降低了30%,且长期处于缺货状态。总体而言,中国的AI大模型发展正受到算力“卡脖子”,更具确定性的解决方案还是依靠于自研芯片和服务器。 国产芯片参数仍有差距,预计海外巨头仍将维持领先。根据Wccftech,2022Q3独立GPU市场中英伟达和AMD分别占据88%、8%市场份额。根据海光信息招股书公布技术指标数据,当前国内高端GPU相比国际巨头在显存频率、带宽等参数上还有一定差距,但在典型应用场景下,深算一号已基本能够达到国际上同类型高端产品的水平。 去年8月壁仞科技发布了首款通用GPU芯片BR100,其称已创出全球算力纪录,但在一些关键参数上,仍难以超越英伟达最新的H100 GPU,20个H100 GPU便可承托相当于全球互联网的流量,使其能够帮助客户推出先进的推荐系统以及实时运行数据推理的大型语言模型。在国际市场上,英伟达和AMD在高性能计算和人工智能领域具有丰富的产品线和完善的生态系统,叠加长期积累的技术优势和市场地位,预计仍将长期维持AI算力芯片领域的龙头地位。 2.4.算法端:英文语义测评海外模型占优,国产大模型有望在