您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。 [未知机构]:对话王小川20240624 - 发现报告

对话王小川20240624

2024-06-24 未知机构 章嘉艺
报告封面

术狂想。比如像 OpenAI 7 万亿美元造芯片、研究可控核聚变,总之他们会把 理想主义拉满。 国内的话,在这个领域追平到弯道超车后,理想怎么跟上?以前我们号称自己应用比美国落地快,但随着模型还在继续迭代,我们在应用上到底是能像之前互联网时代,一下子弯 道超车,还是处于 follow 的状态?国内对于投资也好,行业也好,我感觉里面会有新的范 式。 Q: 大家的共识是这个时代在产生重要的变革,但是变革到底怎么发生,怎么落地?发现 有越来越多的非共识和不确定。 王小川:对,依然有很多非共识。去年到今年,非共识我觉得依然没有减少。比如 ScalingLaw 到底什么时候能够继续维持,还是就会停下来?包括语言大模型和 Sora 代表的视频模型之间的关系。ToB,还是 ToC?我依然还是有很多不同的观点。 02 视频不是提升智能的主轴线 Q: 那我问问你,最近一年从美国、从全球的角度,看到 Sora、GPT-4o 的变化。你曾经表 达不跟进 Sora,背后的逻辑是什么? 王小川:去年,我会认为大家觉得大模型做对的第一个关键词叫「大」,所以已经被验证 通的叫 Scaling Law。中间第二个词,大家开始慢慢忽略,叫 Language。Large Language Model,语言在中间扮演了今天通向智能最重要的一个角色。 当时做搜狗的时候,我们就有两个方向,自然交互和知识计算。知识计算就代表一种智 能,自然交互是使得人跟它有更好的接触,在自然交互里面会提到像语音、图像、视频。但是知识计算的话,中间核心的智能来自于语言。大家提到说用图像或视频去增加智能,我是坚定地以语言为中轴做智能的。 但是如果做交互系统的话,会有声音和图像在里面。这次创业,我们会选择先把长板拉 满,在智能上依然坚持语言为中轴。当大家提到 Sora 时,更多还在强调很炫。我跟比较厉 害的学者聊,他也很震惊。但慢慢回过神来,会发现如果我们把智能当成现在重要的一个 观点时,还是得围绕语言中轴转,其他模态只是帮助应用落地交付更快。所以对百川而 言,如果往 AGI 走,依然是要做智能,背后就是语言,这个立场是没有变过的。 我们今天来看连接主义、符号主义,大家都以符号为中心来讲它的可解释性。今天大模型 核心是把符号主义的语言,包括数学符号和代码符号,和 Transformer 做压缩连到一块。所 以我的关键点是:不要忘记了智能跟符号主义之间的关系。 张鹏 :你刚才说 Sora 虽然让人非常震撼,让我们视觉受到巨大冲击,但它不是提升智能 的主轴线,在你认为智能的最核心目标里,它是旁支,可以这么理解吗? 王小川:对,它是旁支,如果智能化的语言是中轴,视频更多是外围,视频里智能性增加 的难度可能是一百倍、一万倍,所以今天还没有技术能力和技术突破到能在视频里提升智 能。智能是把不同事物之间相通规律赋予一个名字,就像庞加莱所说的,数学艺术在于「give the same name to different things」——数学家眼里的数学之美是把不同的事物用同样一个符号来表达。 视频没有智力里的抽象能力,就像你让机器读一亿本小说,它也不会增加智力。智能不是 说看的数据有多少,而是看数据背后所蕴含宇宙里的规律有多少。当下机器还是在人类智 慧的语言里学习。 Q: 所以某种程度上,如果我把视频去压缩再还原,它在这个环节里并不真正含有我们所讲的智能。 王小川 :在今天的范式里,没有能力去通过视频去发现新的知识,去表达,都是做不到 的。技术限制了我们通过视频去做这件事情。 Q: 但是它很酷,对吧?所以可能很多你的朋友都会问你「小川你啥时候做(视频)?」你怎么回应他们呢?因为在当下,能做出来视频就很酷,就能拿到更多的投资,就能继续 往前走,你为什么选择用非常明确的态度表达你不跟随这股浪潮。 王小川:因为我很清楚,我们这个时代往 AGI 里走,智能就是核心,所以但凡把 Sora 跟智 能之间划关系,我觉得这就是还不太懂技术。 Q: 所以其实你本质选择的是在智能上「长个儿」,而不是横向的扩展。也充分印证了小 川还真的是要 commit 到 AGI 这个目标上。那我们怎么解读 4o?因为我们也听到有创业者说,4o 这种统一多模态的方式,可能是接下来做大模型公司的必答题。如果说 Sora 是选答题,可以不选,但 4o 是必答题,这观点你认同吗? 王小川:4o 在交互上能够传递更好的用户体验,4o 代表的语音交互,我把它分成三个层级 的理解,如果你是要一个简单帮你提高效率的工具,让语音读起来更自然、更流畅、更省 时间,用 TTS(语音合成)加 SR(语音识别)也就够了。 如果我们把产品定义为只是提高效率的工具,都不用去聊智能。因为我认为今天 AGI 一大 特点是:我们不是在造工具。我反复讲这个观点,像之前一位行业大佬跟我聊,他说「你 觉得这个大模型行吗?7 位数乘法都不会做。」好像觉得大模型没有智能。我就反问他说「你会 7 位数乘法吗? 」他也不会。 因此判断模型不能以工具维度来看,其实智能的核心就是像人一样去思考、沟通、表达共 情,所以在「如何像人」这一层面看,在交互上就要像人一样流畅地表达。这个前提下,我觉得 4o 的技术能够支持它的产品形态。 再往后走,就是 4o 能有语气,能从对话里感知到你的焦虑,甚至影响到对话的内容,那就 是更高的一个境界。4o 目前展现出来的能力,我认为更多是在「像人」上产生了产品的意 义。但在统一建模语言上,我们还是要评判它对智力本身有多大的提升。这个角度来看,我认为今天 4o 也没 展现出这种目标。 Q: 我发现你还是非常聚焦在智能这件事,包括你对 Sora 和 4o 的解读,你认为其实它们都 不是在智能上成长的产品,它们还是能在某些场景里做出更好的产品,提供更好的服务,这实际上是智能的一个旁支能力。 王小川:对,但有用,我们要追求的就是 AGI 要像人,4o 做到的比我们更接近。所以在语言领域,我认为 4o 是我们这些智能公司要去做的必答题。 03 小心「沿途下蛋」的代价 Q: 最近一段时间,我们看到好多产品开始投流了,开始有一定的用户量,小川你看到这 些产品会不会着急?或者我们换一个视角,现在大家都在说技术在持续的成长,我们都知 道技术还不成熟,还要继续发展。但有一个思路叫「沿途下蛋」,在技术发展时,能做出 来什么我就先做着练练手。 但选择在哪个时刻要做产品和要做什么产品,你有自己的判断,因为我看那些挺热门的项 目你都没有涉及,能不能跟我们分享一下,你在用什么逻辑约束自己,让你没有去选择那 些你本可以做的事儿。王小川: 因为我觉得当下大家有一个共识:一个创业公司也需要做超级模型,且做出超级 应用。做个小应用不是创业的目的,它不能让公司活下去,或者说达到公司最终的一个使 命。所以沿途下蛋要看目的是什么,是验证技术是否可行?还是希望它长成一个超级应 用? 我自己在上一家公司做搜狗的时候,做过输入法,做过搜索引擎,可以说是下了三个蛋:输入法、浏览器、搜索引擎。所以在我定义里的超级应用,至少需要汇集 3000 万的 DAU(日活跃用户) ,甚至一个亿。我们今天发布的「百小应」也好,其他家的产品比如「文 心一言」等等,大多数在对外呈现模型能力,只是模型能力的呈现并不代表它就能成为一 个超级应用。 而且下了蛋就得养,你沿途下一个两个三个蛋,甚至做成了应用工厂,最后反而可能把自 己困住了,往里面无限投入资源。甚至如果你下了一个离超级应用很近的蛋,养到特别大 的时候可能会把自己都带偏,所以需要特别谨慎,得充分去思考你的模型的超级应用究竟 是什么? 我们在内部有对超级应用的定义,哪怕我们现在发出来一个模型,但不代表今天顺着这个 道路去扩展模型,就可以做出超级应用。 Q: 因为「下蛋」本身也要消耗「蛋白质」,然后关键是下完了以后,如果真的孵出了一个 小鸡,你还得养。这个事如果太多了,都是小东西,你都要照顾,可能你最终的目标都会 受影响。 王小川:所以大家愿意说下一个蛋,就一两个蛋,你别沿途下。这个事情对一个创业公司 是承担不起的。 Q: 刚才你也说到了,今天很难说你做的任何一个东西就是未来的超级应用,但同时你又 不能永远不推应用。 所以你如何选择又要通向 AGI 的目标,又能下出合理的蛋的?这里面有什么标准和思考逻 辑? 随着模型在继续增长,你的产品也要跟着一起成长。有可能你会发现,随着模 型的增长,你的产品没有跟着一块成长,或者不需要成长,那你的产品就给模型盖住了。所以今天的话,有可能你不是要下一个蛋,而是造一艘船。这艘船在今天要有广泛的应 用;而且模型每涨一分,你的应用的能力也能继续成长。 这在某些领域是不成立的,比如 toB 领域里的广告文案撰写或者 AI 客服,可能用一个小模型就够了。也许这个蛋可以创造很大的收入,但是即便你成功,你之后还愿意投钱做模型 吗?如果这个蛋空间有限或者对技术依赖有限,你就没有能力或意愿投资这样一个模型。之前大家做 AI 的时候,大家都说自然语言处理是人工智能皇冠上的明珠,那今天我会认为 医疗是大模型皇冠上的明珠。因为医疗行业的需求是无限大的,模型再大,医疗都需要;以及医疗的智力密度是足够高的。 Q: 所以你的意思是,如果你今天选择一个下蛋的标准,你会非常关注它是不是最终通向 AGI,就是模型的能力是要有成长的空间和需求的,且这个东西又能够在今天交付阶段性的 比较闭环的服务。 而不是说今天找到了一个小市场,最后发现我对于 AGI 没有能力或者意愿去投入了。王小川:对,这个东西既得有可行性,也代表了未来足够的高度。 04 AGI 要造出一个高水平的医生 Q: 既然你认为医疗符合你的标准,那今年我们会在医疗领域看到百川智能的产品吗?王小川:我们内部已经有了 demo,确实是符合我们自己的一个预期的。 我发现今天出现了一个特别矛盾的声音。比如我们跟外界沟通的时候,我们说要做 AGI,要做医疗。大家就会觉得你只是做个 vertical,没有大的理想。但是如果我们说要造个医生 出来,他就会怀疑——能做到吗?好像太难了。 好像今天做 AGI 已经变成了一种叶公好龙的做法,就是提 AGI 的时候都特别厉害,但是当真的碰到具体的比如说医疗问题,大家又都躲着走。一方面讨论 AI 要毁灭人类,一方面又 觉得 AI 没法在医疗里面有贡献。这是我觉得非常非共识的一个点。 然后我们做医疗的话,会把它类比成无人驾驶。无人驾驶也是之前大家觉得特别难的一个题目,也有伦理的问题,也有可行性的问题,但是大家对无人驾驶也很看重。 医疗其实是一个比无人驾驶更有价值的事情,因为没有无人驾驶司机也能自己开车,但是人生病了没法自己看病。所以医生的供给要比司机少很多,同时又跟生命健康高度相关,因此它的价值就足够大。 那剩下的情况就是伦理问题和难度的问题,那类比无人驾驶 L0-L5 的级别,医疗里面也可 以划这样一个级别。 Q: 自动驾驶里各个级别都是有明确的定义的,那医疗领域里的 L0-L5 是怎么定义的?王小川:理论上,如果你是单点的信息,给出单点的决策建议,叫做 L1。 如果你是通过多样的数据收集诊断,又看片子、又看语言文本,还有组合的输入;同时在输出的信息里是既有诊断的又有治疗的组合方案,就可以做到 L2。 我们认为今天医疗行业在 AI 加持之后的话,可以做到 L1-L2 之间,比 L1 好一点,但是离 L2 还有差距。 但是我们判断,以现在大模型的技术加上其它技术的引入,是有机会做到 L3 的,也就是在 部分场景、甚至大部分场景里,机器能够自己做出长程的判断和决策。但是在关键的时间点里面,还是需要医生来做最终的决策。 因此,我们认为今天这一代大模型是可以做到 L3 的。在理想之中大家还会提到一个词叫 AGI,但是 AGI 是什么还是未被定义的。那我们认为 AGI 至少得有一个可以评测的定义。之前大家觉得图灵测试无法用语言分辨出人和机器了就可以称为智能,那今天我们对于 AGI