您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。 [未知机构]:百川智能王小川20230722 - 发现报告

百川智能王小川20230722

2023-07-22 未知机构 Dawn
报告封面

大家都很好奇,因为一开始都认为你要做一个中国的OpenAI,但是看到你做了开源的东西,那开源是 一个技术阶段,还是本身它就是未来你思考的新模型? 王小川:开源,我们觉得是一个技术阶段,其实做中国的 OpenAI 并不代表着完全要复制它完整的路径。在硅 谷跟 OpenAI 交流的时候,他们在理想上是走得非常远的,比如说他们现在做 GPT-4 的时候是需要 2 万多张卡做计算,国内都没见过这么大的规模。 他们很自豪地说他们在设计把 1000 万张 GPU 连在一块做计算模型。 1000 万张卡什么概念?英伟达一年的产量是 100 万张。1000 万张就完全是可以登月(moonshot)的这么一种计划。 另外,在怎么去做应用、做产品上,甚至做一些更广义的技术上,这可能是OpenAI的短板,或者是他 们现在不是特别关注的事情。 所以在中国做OpenAI跟美国的生态环境会非常的不一样。 最近开源的 Llama 2发 布之后,在国内引起一个狂潮,大家觉得它会重新改变格局,这是OpenAI 没 做到的地方。很遗憾这个不是 Google ,而是 Facebook(Me ta) 做的, Google 还是继续缺席的位 置。但国内的话我们就提前看到这件事情了,我们认为未来开源和闭源会有一个并行的状态。Q: 开源和闭源会是并行的状态。 王小川:并行就有点像现在既有苹果的系统,也有安卓的系统。甚至在更多的公司要参与进来的时候,光用闭 源的API调用是不够的,也需要这个开源模型提供 80%的服务,最后靠闭源来给大家提供服务剩下的 20%会有大量开源的需求。而之前美国没有,中国更没有类似的模型。因此Llama 一旦宣布的话,对 美国是很大的震动,但中国也有热潮跟着在走。事实上,严肃的技术评测包括几种主流的像 SuperClue的评测,以及一些大厂和公司的对比, Llama 和百川对比的话,明显我们现在在中文领域 里面是远超 Llama 的品质。 王小川:Llama 是有Llama 1 和 2。 我们知道 Llama 其实对中文的处理部分其实是不足的,跟Llama(1)相比,百川的英文是能够部分对 标,关键指标是超过的,然后中文是明显是做得更好,很多人在对 Llama进行中 文改造,但还是没有 本土的百川好用。 Llama 2 发布之后,我们也能看到技术报告,里面大概有 9 个技术创新点,其中有 6个在我们正在研 发的模型里已经做到了。 跟国内其他模型相比,我们这边的思路是目前最接近的,有 6 个点我们已经做了,然后有 2 个我们没 想到,有一个我们这是无效的,所以在跟 Llama2 对比的时候,我们在技术的思考里不是简单的抄袭 借鉴,我们是有自己的思考的。我们认为在这个道路里面后面会有我们的机会。今天我也呼吁,在国内大家在用的时候不要只想着国外很好,OpenAI 现在来讲离距离确实更远,年 底能够达到 GPT-3.5 或者接近的水准需要时间,但在开源大模型里面我们现在已经很接近了,在中文 领域现在就可以替代,也许未来还能超过 Llama,我觉得是可以做到的,我们应该有这样的自信。Q: 所以你的下一个开源模型,你认为会比 Llama 2 更好? 王小川:至少是在中文。在中文领域,现在已经是超越了。再往下是在全球市场的开源领域去发出中国的声 音。 Q: 英文和中文都要达到比Llama2好,这件事对你是看得见、可实现的。 王小川:我觉得有机会,在可预测未来是可能会发生的。 Q:所以你的观点是:今天不能简单的说我们未来大模型就是走向OpenAI——闭源的中心化的模型。开源 实际上是具备着很大的可能性。所以也就意味着一方面在于实践技术,展示技术能力,但它也确实有 可能蕴含着商业模式和价值。 同时,开源的基础之上,中国做一个全球最好的中文模型还是一个让人可以期待的事。 王小川:总结得非常准确。 搜索的经验是坏的惯性,还是好的资产? Q:之前很多投资人认为,用搞搜索的经验做大模型肯定成不了。经过这几个月的实践,你是否验证了你 当初的与他们不同的判断?搜索的积累和能力对大模型有什么帮助? 王小川:因为今天(AI的)这个成就是OpenAI做到的,Google没做到,所以投资人的第一个想法就是这个新 的技术正好是搜索的反面。他们很难分清到底是技术还是组织管理的原因。导致这种声音的原因,一个是不理解搜索技术和AI的关系,第二个是认为搜索背景的认知会带来负向的效果。 因为搜索公司主要就是百度和Google,不太需要对外融资,也不会给投资人讲搜索是什么。尤其是上 一波AI热潮更多是通过图像带起来的,大家对搜索里的NLP等技术内涵是陌生的。 从结果上来说,我们6月份发布了第一个模型。最早有竞争对手告诉投资人,百川最早第一个模型要用半年时间,其实我们只用了1/3时间就做到了,然后又发了第二个。而且不久的将来,我们会发布一个 闭源大模型。 百川从第一天开始就是自研的,而且冷启动非常非常快。这背后的原因是什么呢? 今天我们知道高质量数据是大模型的基础,那什么公司对语言数据有广泛的理解呢?那其实搜索公司 干20年,每天都在思考怎么找到这种高质量数据。比如说首先从1万亿个网页中找到100个高质量的网 站,然后再做页面分析,包括信息抽取、去重、反垃圾,甚至按段落级别来提取内容。 第二点,从人才储备来说,既要有算法能力,又要有以搜索能力为主的工程能力,这种人基本也在搜索公司。现在字节跳动做模型就是用的搜索的团队,百度的进度也非常快,包括沈向洋在做的模型也是Bing的VP过去做的。 做大模型还有一件事情就是评测。评测大模型好不好其实是一个痛苦的问题,包括推理的问题、精准问答的问题、创作的问题……有的变好,有的变差,怎么评价?所以这种评价体系也是搜索公司长期积累的一个能力,用评价来带动后续算法的迭代。 另外创业公司又比大厂的组织效率要高很多,有非常且灵活的决策体系,所有效率就会得到最大化的体现。 Q:所以当年认为搜索干不好大模型的那个投资人,后来你跟他聊过吗? 王小川:名字打上叉除名了,都不知道是谁了。这种只看商业不看技术的,还有特别喜欢美国回来创业的小鲜 肉的,这些投资人就直接划出来不聊了。 老王说得对「小创新靠大厂,大创新靠小厂」Q:你觉得创业者在未来这波技术变革中会有足够大的机会吗?还是说主体仍然由巨头把控?创业者该如 何抓住属于自己的机会? 王小川:王慧文虽然对技术没那么懂,但他有一句话我觉得说的特别对:小创新靠大厂,大创新靠小厂。虽然大厂有很多人、钱、资源的优势,但组织壮大后反而会有很多很内部问题,组织效率收到了严重 限制。 如果我们坚定认为 AGI 的到来,那么一定会爆发出巨大的新物种。这些事情对创业公司来说有巨大发 挥作用的机会。这个从历史推演就能论证,所以只要有AGI,未来就有新的机遇。 OpenAI 是一个以研究导向为主,在现实世界落地产品的公司。你跟着它走,研究领域可以有非常耀 眼的成就。但是今天怎么做应用,不管是 OpenAI 还是硅谷以技术驱动公司都还不是太擅长这个。我 有自信中国在应用落地上比美国强很多。 全世界都到了一个转折点,现在技术已经就位,这是第一个难点。应用和需求方面是第二个难点,这一块叫做 model service(模型服务)。所以现在的挑战是,第一,你有模型了吗?第 二,有了模型 就等于有了服务吗? Q:兜售 API 属于服务的范畴吗? 王小川:我觉得不是。 就像你有了无人驾驶的技术,但你真的就能造辆车了吗?显然不是。其中还需要许多技术的融合。现在美国对于应用层比较迷茫,中国现在的问题是模型能力不足。今天很多做模型的创业公司,也是 把自己的视角局限在大模型上,对其它技术栈没那么了解。 讲个最简单的例子,做模型肯定会遇到幻觉问题,时效性问题。幻觉和时效性都是光靠大模型本身能解决的。有人用扩大参数,扩大到万亿,十万亿来解决幻觉;或者用强化学习。但其实最直接的做法就是把搜索和信息检索带进去。大模型和这些结合在一块,才能形成一个更完整的技术栈。 这个技术提出后,已经有点苗头了。比如现在有一个叫做向量数据库的东西,它其实就是搜索的变 通,主要应用在 toB 里面。搜索方面,在 2018 年有了 Transformer 技术后,已经具备了语义搜索的能力。大家可能听过倒排索 引,就是把这种符号网络索引起来。在 2018 年之后,不管是我们、百度还是字节的向量都已经转向了语义公众号新价值人搜索,背后支 持这种技术的是三个巨大的向量数据库。这些技术栈和大模型结合在一起,才能让大模型有更大的发 展。大家可以看到,搜索的团队经验对于做模型是有优势的。第二个方面,现在大模型技术逐渐实用化。然后在所谓的知识计算中,还需要加入向量数据库和搜 索,才能形成更完整的技术和产品。在这个问题上,大家正在逐步形成共识。今天来讲 ChatGPT 的流量,大家开始担心是否能够持续爆发。因此大家还需要更多探索。我们认为在娱乐行业,在人物角色扮演方面有广阔前景,但这件事情需要中国公司进入才能做得更 好。另外一件事是如何将大模型和搜索如何结合在一起,Perplexity AI 现在做得挺好,我们则处于被动的 地位,美国有机会,投资人就会找中国的对照公司。如果这家公司,一没有大模型,只是在调用API;二没有搜索技术,只能依赖 Google,Bing 这些公 司的技术,这样并不理想。Q:刚才你说,ChatGPT 这类的用户量在下滑,就是让大家感觉新范式未必能够一下子打穿。这是不是对 创业者做应用的挑战很大?因为根据你刚才所讲,创业者在一个技术不成熟的环境下,本身创业探索的代价就很大。而如果创业者只是拿别人的API做个应用范式的变化,其实没有特别亮眼。王小川:前两天 OpenAI 刚升级了 code interpreter,然后又升级了custom instruction。对创业公司来说又 形成了巨大的压力。美国投资人也在担心,在焦虑其中还有没有机会创业公司能超过巨头,会不会做一半就被大公司取代了。在中国的话,我觉得走大模型路线的还没有像OpenAI那样有一个占据顶端的公司出现。现在还处于“百模大战“的阶段。今天做大模型的公司有没有能力做应用,这件事中国比美国有很多看点。追赶GPT-4?一味追求模型代际提升很危险Q:这也引发了一个问题,就是接下来中国谁会追到GPT-3.5,甚至GPT-4的水平也有另一种声音说GPT-3 已经足够企业去解决一些垂直场景问题。 我感觉小川你们还是致力于去追GPT-3.5,GPT-4。这个追的过程难不难?你们为什么说一定要追到 GPT-4的程度? 王小川:我觉得这是两个事情。 首先是技术的跨代进步,可能对后续产品生态产生碾压式的影响。无论从理想的角度来看,想象一个遥不可及的未来,就像战斗机的三代、四代、五代一样,在这其中每一代都可能发挥重要作用。所以在这个时候,大家应该争取在竞争激烈的领域中寻求优势。 但是在争夺优势的过程中,大家可能会面临新的困惑:到哪一代才能真正实现超级应用?GPT-3.5在美 国至今尚未形成超级应用,训练一次大约需要5000万人民币,这还不包括前期准备和实验之类的成 本。GPT-4训练一次可能需要5亿人民币。到GPT-4.5代,成本可能会达5亿美元。 因此,如果没有超级应用,单纯追求技术提升也是非常危险的。所以我们需要在这个领域同时追求第四代和第五代技术能力的提升,同时要有超级应用。否则,我们可能会突然面临两个方面的升级压 力,这两者都需要同时升级才能取得成功。 Q:所以每一波型的技术里都应该能够诞生有价值的应用。 王小川:你刚才说的很对。 在B端里面GPT- 3 基本就已经能用了,在C端没有能用的原因我认为还是时间太短。 加之大家把目光太过聚焦在OpenAI上,它不是一个产品公司,不是一个能做超级应用的公司。能做超级应用不仅需要技术追赶,也要对产品有一个足够的理解。这件事我觉得年底是水落石出的时 候。 「小川适合做大模型」「做了20年搜索