您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[华西证券]:AGI(通用人工智能)专题之二:“文心一言”发布,国内厂商距离复现ChatGPT有多远? - 发现报告

AGI(通用人工智能)专题之二:“文心一言”发布,国内厂商距离复现ChatGPT有多远?

文化传媒2023-03-17赵琳华西证券梦***
AGI(通用人工智能)专题之二:“文心一言”发布,国内厂商距离复现ChatGPT有多远?

► “文心一言”表现一如预期,不必过度悲观 3月16日“文心一言”发布,从官方demo来看,文心一言具备文学创作、商业文案创作、数理逻辑推算、中文理解、多模态生成能力,存在超预期亮点,但事前录屏降低了其演示的真实性,也并未对外直接开放,多因素导致公众反馈不佳。我们认为尽管上下文理解、语义逻辑、多轮对话方面尚有欠缺,“文心一言”展现了足够的文案创作能力,为B端降本增效的起始逻辑已经明晰,尽管尚未对公众大范围开放,企业用户已经能够申请内测邀请码,若邀请范围持续扩大,飞轮效应将推进“文心一言”表现改善,且优化空间极大。 ► 复现ChatGPT的难点在哪里?AI三要件略逊一筹,但差距并非不可逾越 1)算法上,去开源化极大增加了国内科技企业的复现难度,但学术界已有相对成功复现先例,随着人才流动、时间推移和研究进步,大模型性能很可能逐渐趋同。2)数据上,数据集质量、标注细节处理、用户真实交互是关键,尽管优质的中文标注数据集匮乏,使用英文数据进行预训练并不影响中文输出,科技企业能够参考GPT3的路径,利用海量用户交互提升数据质量。3)算力上,国内头部科技企业多已完成数据中心建设,能够实现算力资源部分自给,此外算力更接近于自由流通的商品,战略押注意愿明确、现金流充沛的国内厂商有希望弥合算力上的差距。 ► 工程化和应用分发能力是隐形壁垒,头部厂商优势明显 国产ChatGPT的落地在技术准备之外还需要两项核心要素:工程化与分发能力。1)工程化能力,即能够利用更低的成本和更高效的迭代做出先进的大模型应用,制作更高效、廉 价、贴合市场的产品,能够同时容纳亿级用户在线。2)充沛的C端用户及B端应用场景,即更低的分发触达成本、更快速的产品应用迭代。国内厂商完全具备大DAU场景下AI工程化处理的潜力,且应用分发是国内企业的长项,头部厂商本身已经建起规模及心智壁垒,且商业模式无需再探索,如要落地AGI相关应用,获客成本远低于新进入者。 ► 若“文心一言”对外开放,增量成本仍可控 短期我们关注“文心一言”等产品对科技企业财务状况的影响,将增量成本拆分为训练成本、推理成本及数据标注成本(暂不考虑人力支出及维护费用),测算大模型落地搜索页面后年均增量成本约为16亿元。但考虑到国产模型参数量及数据集token数量均是未知,且Azure云计算价格与实际成本存在偏差,此外实际落地后各项成本均存在优化可能、具体会计处理方式还存在探讨空间,我们判断10-20亿元为其增量成本的合理范围(暂不考虑人力支出及维护费用),参 考百度2022年经营现金流净额261.7亿元,对公司正常经营影响可控。 投资建议 GPT4、Office365(Copilot)对公众的震撼只是前期技术突破后的余韵,而非AGI领域想象力的终点,产品的成功会驱动更多学术资源与产业投资的倾斜,人工智能必然成为产业发展长期主线,国产替代具有需求上的紧迫性。依然重点推荐百度(BIDU.US),判断“文心一言”表现符合预期, 公司目前仍处于低估区间,尽管技术差距依然存在,短期内研发投入可能上行,我们看好人工智能领域投入对公司业绩及估值的长线提振。同时关注已在视频、营销、阅读等相关细分领域抢跑的重点标的,推荐当虹科技、捷成股份、蓝色光标、风语筑、浙文互联。 风险提示 “文心一言”落地效果不及预期风险;ToB服务推进节奏不及预期风险;成本大幅增长风险;AI产品道德及监管风险。 3月16日百度AI对话模型“文心一言”发布,我们据发布会信息总结,“文心一言”基于此前ERNIE大模型、PLATO对话模型训练而成,是对百度2019年起便已开始的NLP实践的延续。从技术角度看,除百度已有的知识增强、检索增强、对话增强技术外,“文心一言”引入了有监督的精调、RLHF(基于人类反馈的强化学习)、提示学习等ChatGPT基础技术,但具体参数量、数据量、耗能、对话时效等均未公开。 事前录屏而非实机演示,对外界信心产生负面影响。从现场发布的demo来看,文心一言具备文学创作、商业文案创作、数理逻辑推算、中文理解、多模态生成能力,同类问题下中文理解能力强于GPT4,且随输入内容生成音频、视频尚属AI对话模型中的首例,存在超预期亮点,但发布会未能展示模型的编程能力,且事前录屏降低了其演示的真实性,也并未对公众开放,多种因素导致公众反馈不佳。 “文心一言”展现了足够的文案创作能力,为B端降本增效的起始逻辑已经明晰。出于商业角度考虑和高昂的端侧微调成本,厂商普遍放弃开源,转而以提供API的方式供下游用户在特定场景下进行推理使用。以ChatGPT为例,OpenAI并未公布其基础模型(GPT3.5、GPT4)技术细节,用户仅能够在自身应用内通过API调用其模型。从第一批用户实际使用来看,“文心一言”已经展示了基础文案工作能力,除此前接入650家企业外,发布当日有6.5万家企业申请测试,签约5家客户,一定程度反映了企业客户的认可程度。 用户交互能够进一步改善模型表现,我们判断这也是公司急于推动模型面世的原因之一。OpenAI自GPT-3便开始对外提供服务,通过开放给公众,GPT3收集来自用户输入内容的多样性数据,从而迭代出效果更好的模型,这就决定了GPT4是站在用户交互飞轮的巨人肩膀上,与文心一言并不在同一起跑线。但是海量用户群也是百度的长处之一,GPT的飞轮效应是可复制的。尽管尚未对公众大范围开放,企业用户已经能够申请内测邀请码,邀请范围若持续扩大,飞轮效应将推进“文心一言”表现改善,且优化空间极大。 我们判断,尽管上下文理解、语义逻辑、多轮对话方面尚有欠缺,“文心一言”在部分问题处理上已经能够对标GPT3水平,但具体表现仍需时间和公众验证。我们依然认为,人工智能必然成为产业发展长期主线,国产替代具有需求上的紧迫性。 以“文心一言”发布为契机,我们重点分析国内主流科技企业在复现ChatGPT领域需要克服的差距,判断对国产大模型的发展不必过度悲观。 1.1.细究算法、数据、算力三要件,略逊一筹但仍有追平可能 算法:核心差距在于方法及细节处理 大模型的技术积累已经行至一个质变节点。我们将NLP(自然语言处理)及CV(计算机视觉)技术视作类ChatGPT产品的技术底座,从深度学习的角度分析其发展历程,残差网络及Transformer的出现使得模型的深度和参数量指数级增加,大模型成为可能;大语言模型出现后,大模型的使用方式从预训练的单一任务模型迭代到多模态模型,微调时所需的标注数据量显著减少,从而降低了业务的使用成本。 国内AI领域积累深厚,历年论文发表及专利申请占优。Elsevier数据显示2012-2021年中国AI相关论文篇数始终排在首位,到2021年增至美国2倍。从论文引用次数进入前10%的篇数来看,中国2019年跃居首位。2021年达到比美国多7成的7401篇;斯坦福大学数据显示2021年中国提交的人工智能专利申请全球占比超50%。 从基本操作系统看,国内已经具备建立AI底层框架的能力。深度学习框架是实现算法的基础架构和工具,可类比为开发过程中必须使用的操作系统(如游戏制作过程中的虚幻引擎)。从技术定位看,AI框架对下调用底层硬件计算资源,能够屏蔽底层差异并提供良好的执行性能,对上支撑AI应用算法模型搭建,提供算法工程化实现的标准环境 , 是AI体系的关键核心 。 目前海外AI框架领域已经形成TensorFlow(Google)、PyTorch(Meta)双寡头格局 , 国内主流AI框架主要有PaddlePaddle(百度)、MindSpore(华为)、MegEngine(旷视)、OneFlow等,从Github指标看,我国主体推出的AI框架中,华为MindSpore、百度飞桨引用次数、点赞数、贡献者数量占优。 但ChatGPT在算法上的突破更多在于思路而非具体理论,是“菜谱”而非“食材”的创新,这成为了复现的难点之一。2022年11月,OpenAI上线了机器人对话模型ChatGPT(GPT-3.5),引入了RLHF(基于人类反馈的强化学习):利用人类的标注数据去对GPT3/GPT3.5进行有监督训练,针对模型的多个回答进行排序标注,形成奖惩机制,让模型去拟合人的偏好,从而实现了史上最佳的输出效果。ChatGPT并未实现任何底层理论的创新,更近于多种前沿算法理论组合,选取了大量的数据,设计了合理的标注流程,并且将这些融合,真正复杂的是这一过程。 OpenAI逐步放弃开源,极大增加了国内科技企业的复现难度。相比谷歌此前公布了大量的模型原理,OpenAI并未提供开源论文,大量的技术细节并未公开 ,GPT3.5的参数规模也并不明确。尽管国内学术及业界均在AI领域有一定的积累,历年论文发表及专利数占优,但在复现过程中大量细节都并不明朗,如提示学习的具体机制、算法如何泛化、算法微调的具体环节、数据标签的设置等。 从国产实践来看,学术界已有相对成功复现先例,但尚未工程化落地。百度“文心一言”外,清华智谱ChatGLM亦引入了监督微调、反馈自助、人类反馈强化学习等技术,尽管参数量较小,输出表现良好。2022年11月,斯坦福大学大模型中心对全球30个主流大模型进行了全方位的评测,GLM-130B是亚洲唯一入选的大模型,评测报告显示GLM-130B在准确性和公平性指标上与GPT-3接近或持平,鲁棒性、校准误差和无偏性均优于GPT-3。 数据:数据集质量、标注细节处理、用户真实交互是关键 相比传统无监督学习的GPT模型,ChatGPT表现更好的原因之一是在无监督学习的基础上提供了高质量的真实数据(精标的多轮对话数据和比较排序数据),主要得益于敏感词标注领域技术投入、对公众开放后形成的数据飞轮。OpenAI并没有公开训练ChatGPT的相关数据集来源和具体细节,我们参考Alan D. Thompson文章,判断主流大模型数据集来源可分为六类,分别是:维基百科、书籍、期刊、Reddit(社交媒体平台)链接、Common Crawl(大型数据集)和其他数据集(GitHub等代码数据集、StackExchange等对话论坛和视频字幕数据集)。 国内厂商在中文训练数据方面有一定优势,以百度为例,ERNIE 3.0的中文预训练语料数量最多,主要来源为ERNIE 2.0(包括百科、Feed等)、百度搜索(包括百家号、知乎、铁算盘、经验)、网络文本、QA-long、QA-short、Poetry 2&Couplet 3、医学、法律、金融等领域的特定数据以及百度知识图谱(超过5000万条事实)。 但中文互联网语料质量相对较差,优质的中文标注数据集匮乏,使用英文数据进行预训练更为可行。RLHF论文中的训练数据英文占比极高,但对中文和其他小语种能力的提升非常显著,可见RLHF对模型能力的提升能够跨越语种,以ChatGLM-6B为例,该模型在1:1比例的中英语料上训练了1T的token量,兼顾双语能力,我们认为中文数据集的薄弱对于国产大模型而言并不构成较大阻碍。 精细标注、对标注人员的培训是技术难点。ChatGPT的前身GPT-3已经展示了非常强大的语句串联的能力,但互联网的词汇存在负面信息,单纯凭借学习能力无法来清除这些训练数据。GPT3.5给AI提供标有暴力、仇恨语言等标签,AI工具就可以学会检测这些内容,并在它触及到用户之前将不良内容过滤掉。尽管标签主要通过人工标注,具体标注技术细节、对标注员的培训等仍需要国内科技企业探索。 科技企业能够参考GPT3的路径,利用海量用户交互提升数据质量。作为国内最大的搜索引擎服务商,百度在真实数据和用户需求理解方面有较多积累,能够对旗下的AI大模型进行充分的训练和预测,进而使得AI大模型的智能化水平不断进化。 参考GPT3的经验,GPT-3是OpenAI正式对外提供服务的模型。通过将模型开放给公众,GPT3收集来自用户输入内容的多样性数据,从而迭代出效果越好的模型。若文心一言向公众开放,我们判断真实的用户调用与模型迭代之间有望形成正向循环,缩窄国产大模型产品与ChatGPT的差