您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[国泰君安证券]:计算机行业寻找AI技术潜在应用场景的方法论:AI大航海时代的数字罗盘 - 发现报告

计算机行业寻找AI技术潜在应用场景的方法论:AI大航海时代的数字罗盘

AI智能总结
查看更多
计算机行业寻找AI技术潜在应用场景的方法论:AI大航海时代的数字罗盘

技术可实现性:寻找现阶段AI的“技术能力边界”。我们以微软对GPT-4的测评作为基础寻找现阶段AI落地的“技术边界”。在现阶段AI技术的各种局限性当中,我们认为最核心的掣肘仍然是AI能力的不可解释性,当某个问题存在标准答案、这个答案无法被找到,且我们对于错误难以容忍时,AI是难以落地的;此外,AI的知识边界来自于人类已知的知识边界,这就意味着AI无法进行真正意义上的创造性工作。 商业可行性:在技术可实现的前提下,寻找AI落地的商业价值边界。在技术可实现的前提下,我们尝试勾勒AI落地的商业价值边界。技术可实现性并不意味着商业可行性,我们通过“帮客户赚钱”和“帮客户省钱”的划分方式分别讨论了B2B2C场景和B2B场景下AI落地的商业价值。 在B2B2C场景中,我们认为AI商业落地潜力在于其技术差异是否能够被终端用户所感知并进一步影响消费行为;在B2B场景中,我们认为AI的商业落地潜力取决于原场景中可被AI替代的任务比例。整体上看,我们认为B2B2C场景优于B2B场景。 商业价值归属:着重关注场景是否开放和商业价值是否为新增。我们根据“市场的大小”、“场景的开放程度”两个指标构建了场景矩阵,进而得出两个结论:第一,开放场景中后来者更容易通过被大模型赋能实现“弯道超车”;封闭场景中,更可能是小模型时代的领先者利用大模型实现“自我迭代”。第二,对于非巨头企业而言,由于大模型出现而“新增”的商业价值或将更多来自“长尾场景”而非“头部场景”。 继续推荐金山办公、科大讯飞、杰创智能、凌志软件。金山办公:公司是国产办公软件龙头,全力发力AI战略,加大AI人才投入力度,预计在2023H1推出AI新品,与微软有直接映射关系。科大讯飞:采用“1+N”架构,将大模型落地于教育、医疗、人机交互、办公等多个行业,大模型将率先赋能讯飞听见、学习机,5月6日产品级发布。杰创智能:AI技术可以帮助提高公司公共安全产品性能,降低成本,且外销一带一路国家。 凌志软件:公司长期服务日本金融市场,目前已有GPT相关应用落地(自动生成招股书),也可通过GPT实现内部最高75%降本。 风险提示:AI技术落地不及预期、AI大模型受到政策强监管 1.序言 虽然目前市场上已经有很多关于AI潜在落地场景的讨论,但讨论方法主要是基于“开脑洞”式的穷举或是基于已有落地场景的归纳。而微软、OpenAI以及此前MIT和CMU学者的讨论落脚点都在于AI对不同职业的替代程度。 所以,我们希望构建一套“标准”来进行“AI落地场景的发现”。 只聚焦在“前端应用的落地场景”而不讨论后端各大模型孰优孰劣。 因为能够自建大模型的玩家很少,且大模型作为一个复杂系统,每个模型都会有自己的一些特点和优势指标,事实上我们是不太可能通过一些简单的量化指标客观评估各家模型的能力,单纯问“如果GPT-4是100分,百度文心一言大概多少分”没有答案也没有意义。 我们希望提出一些标准,来粗略描绘现阶段AI能够落地的“场景边界”。我们希望基于另一种思路展开讨论:基于AI的技术局限和商业局限提出一些标准,来粗略勾勒我们心中现阶段AI能够落地的“场景边界”。打一个比方,我们可以把所有的潜在落地场景看作一张纸,而每一条标准就像是一条线,把这张纸分成不同的部分,多条标准交叉就会勾勒出满足各个条件或至少多数条件的交集。 图1:我们希望通过提出一些判断标准来粗略描绘AI可落地场景边界 文中“标准”的提出主要基于几方面的考虑: 某种能力是否可以被AI技术实现; 商业方面是否具备可行性; 基于已落地场景和落地形式的归纳。这一条仅仅作为辅助,原因在于基于现有落地案例的小样本进行归纳很有可能会让我们得出一些“虚假”的因果关系。 具体的思路是: 利用AI的技术局限性找到现阶段的“AI落地场景的技术边界”(对于是否能落地,我们的判断标准是能不能彻底解决问题,而不是能否“将就用”); 在技术可达成的范围内剔除掉缺乏商业价值的集合,得到可落地的商业场景边界; 在这个基础上,我们展开一些衍生讨论,讨论的重点在于商业价值的归属权。 图2:全文思路是基于AI的技术的各种局限性找到其“技术边界”,在此基础上剔除缺乏商业价值的场景找出“商业边界”,同时给出对于一般企业可触达的“商业边界” 在文中我们会举出各种例子,对于这些例子,需要注意的是: 例子是为了方便读者理解我们提出的标准,而不是希望对场景进行穷举; 在选择例子的过程中,我们希望场景越小、越具象越好,而并不希望给出的案例落脚在诸如AI在教育领域落地容易、在医疗领域落地难之类。因为每个大行业中都存在一些AI可以落地的场景,而另一部分场景中AI的落地就比较难,把场景框得太大是没有意义的。 需要说明的是: 第一,我们把讨论语境设定在当下可预见的范围内,着眼在全球。 如果模型开发范式再次发生转换或是GPT-5等大模型“涌现”出新的重要能力,或是法律法规、伦理等边界发生变化,都不在我们目前的讨论范围之内。就像MIT和CMU教授在《What Can Machines Learn, and What Does It Mean for Occupations and the Economy?》中提出的很多标准在大模型出现后已不再适用。同时,由于着眼点在全球,文中不讨论由于GPU短缺、中文语料质量不如英文等因素造成的局限。 第二,我们只讨论“大脑”层面的问题,而不讨论“手”的问题。 很显然,部分对物理世界实操要求较高的场景对现阶段大模型而言是很难落地的,这是自动化等其他方面造成的限制,不在我们的讨论范围内。 第三,这只是一个初步的讨论,至少受限于以下一些方面: 1.对于技术的理解偏差。笔者毕业于力学系,并未直接从事过AI相关的科学研究,对于AI大模型的能力边界的理解可能存在偏差; 2.对于其他行业进展的了解程度不足。笔者聚焦于计算机行业研究,对于其他各个行业实际情况的了解可能存在滞后或偏差; 3.各个标准之间可能存在相关性,而不是完全独立的; 4.标准与场景之间存在“虚假”的因果关系。 我们认为,寻找标准的方式甚至比标准本身更重要。事实上,比起“每个标准都一定正确”,我们更希望的是在这里提供一个讨论的基点,让学界、业界、投资者等在思考AI大模型对于自身行业潜在赋能场景的时候,不单纯依赖“开脑洞”式的穷举法,或者直接喊出“万物皆可AI”,而是共同构建一套标准去进行“AI落地场景发现”。这是一个渐进明晰的过程,欢迎各位读者对我们提出的标准进行讨论、完善和修正。 2.技术可行性:寻找现阶段AI的“技术能力边界” 我们把目前的大模型假设成“巨型鹦鹉”,而不是“乌鸦”(对于“鹦鹉智能”和“乌鸦智能”的表述可参照北京大学人工智能研究院朱松纯教授的相关文章,即大模型并不能真正理解自然语言。因为如果给出“GPT-4已经具备完全意义上的乌鸦智能”的结论,就意味着AGI已经到来,所有的讨论已经毫无意义。 技术边界的讨论的起始点来自微软的论文《Sparks of Artificial General Intelligence: Early experiments with GPT-4》,这篇文章列出了基于测评得出的GPT-4的局限性。 表1:微软发布的测评中列举了目前GPT-4的局限性 在此基础上,我们根据下面几条标准把部分局限性剔除: 1.这条局限是属于大模型的还是只属于GPT系列的,比如Encoder-Decoder模式更适合自然语言理解,而以GPT为代表的Decoder-only模式更适合自然语言生成。如果某条局限性仅仅属于GPT系列,我们把它剔除; 2.这条局限是大模型和小模型同时存在,还是只有大模型存在?对于后者,我们把它删除。比如大模型的预训练时间必然是非常久的,但小模型不存在这个问题; 3.这些局限是不是中短期内有可能解决的,比如GPT系列模型可以直接读取的文本长度在快速增加,从GPT-3.5的4096个上升到了GPT-4的32000个,而且可以预见会持续增加。如果这些局限有希望在中短期内通过渐进式的技术突破被解决,我们把它剔除。 表2:我们认为,GPT-4的部分局限性并不适用于整个AI范畴或在中短期内可以通过渐进式突破解决 在按照前述标准把表格里的部分局限性剔除,并把剩余局限性进行重新归类后,我们得出了现有范式下AI落地在技术方面的掣肘: 能力可解释性边界。“信心校准”、“透明度、可解释性和一致性”、“对输入的敏感性”局限都可以归结为AI的最根本问题:深度学习是否是达成AGI的可行技术路径?换言之,目前预训练大模型在“深度学习+人类反馈强化学习”的统计学框架下表现出了一定程度的“乌鸦智能”,这种智能是基于模型对于自然语言的理解或依然是“鹦鹉学舌”?在我们的弱假设下(大模型是巨型鹦鹉而不是乌鸦),这个问题构成了现阶段AI的主要技术边界。 创造性边界。除上述局限之外,仅剩的“规划和概念性跳跃”局限是否可以被第一个问题所囊括?就像“尤里卡时刻”能否理解成人类智力中难以被触达的“CornerCase”?如果这个问题的答案为“是”,AI所有的技术边界将“坍缩”成这AI的本质问题。以笔者的能力,尚无法判断这两个“边界”之间的关系。在文中,我们权且把两个边界作为独立边界分别讨论。 2.1.可解释性边界:模型能力难以被解释是AI最核心的问题 如前文所述,由于GPT-3的“理解”能力是“涌现”的,目前对这些能力来源的可解释性比较差。我们假设目前的大模型是“巨型鹦鹉”,在现阶段技术范式下没有办法突破“信心校准”、“透明度、可解释性和一致性”、“对输入的敏感性”等方面的局限。 我们把这些技术局限按照递进关系归结为三个问题: 是否有标准答案? 如果有标准答案(最优解),这个答案可以被AI找到么? 如果AI找不到标准答案,我们能不能接受? 图3:我们把“鹦鹉智能”带来的局限归结为三个问题 第一个分岔路口:某个问题有标准答案么? 对于没有标准答案的场景,AI的落地似乎是没有什么技术限制的。这部分包含了生成式AI的目前最为常见的一些应用场景,比如文字生成图片、生成文章摘要、生成营销文案等。 我们认为,由于: 这些问题的答案比较开放,不存在绝对的错误答案; 如果对于生成的答案不满意可以通过新增条件的方式让模型对答案进行修改; 人工同样可以重新修改答案; 等原因,这些场景中AI的落地很难看到对“可解释性推理能力”的高要求,技术上并不存在掣肘。 当然,在这类场景中,可能会存在无法保证严格遵守道德和法律规定的问题,比如涉及隐私、著作权等方面的风险,但这些风险可以通过商务条款进行规避,都属于“商业风险”,被我们归为“商业边界”范畴。 第二个分叉路口:如果有标准答案,AI能帮助我们找到这个标准答案么? 我们认为,这是一个“有限场景”和“无限场景”的问题。在所有情况可以被遍历的场景中,AI的任务是在所有可能的方案里寻找“最优解”,这对AI来说是容易的;反之则是困难的。 比如,在棋类运动中“达到人类智力边界”对AI来说是比较容易的,本质上在于它是一个“有标准答案且情况可以被遍历”的场景。上一次AI形成全球范围的讨论毫无疑问是2016年AlphaGo战胜李世石的时候。 我们把这个例子纳入到我们的讨论。很显然,棋类运动是典型的“有限场景”的例子。无论是围棋还是象棋,都是在一套特定的规则框架下战胜对手,每一步可以“落子”的情况都是有限的集合,换句话说,所有可能性是可以被遍历的。这种场景本质上是在所有可能的方案里寻找“最优解”,AI的计算优势被发挥得淋漓尽致。 那么,什么样的场景是“有标准答案且情况无法被遍历”的场景? 我们认为,一个典型的场景就是公开道路自动驾驶。事实上,我们理论上永远没有办法通过路测实现对路况的全覆盖。Waymo是自动驾驶领域的霸主,但是在过去很多年里,在感知问题、行人问题、软件问题等方面,Waymo的接管频率并没有收敛(基于加州路测报告)。毫无疑问,Waymo的自动驾驶能力是逐年增强的;那么,Waymo在