您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[未知机构]:无限光年创始人漆远20240705 - 发现报告

无限光年创始人漆远20240705

2024-07-05未知机构J***
无限光年创始人漆远20240705

2021 年底,时任蚂蚁集团副总裁、首席AI 科学家、达摩院金融智能负责人的漆远重返学界,任复旦大学浩清特聘教授。2023 年,上海科学智能研究院成立,漆远担任担任院长,推进知识与数据结合的AI for Science 原始创新。 同时,漆远也是可信大模型公司无限光年的创始人,打造可信垂直领域大模型,把神经网络与符号计算结合构建「灰盒」大模型减少幻觉,深耕场景释放垂直领域大模型生产力。 01 ChatGPT 之前 大家对于Scaling Law 的想象太有限 Q:大概是五年前,漆远老师在极客公园成都的活动上讲AI,讲得特别好,当时漆远老师还在蚂蚁集团,那次大会上我们相谈甚欢。但过去三年他突然在我的时间线里消失了,也不太出来讲东西,后来我了解到漆远老师回到大学了,同时也在做一些创业的项目,主体还是顺着AI 这条线。 尤其是在过去两年,我们看到大模型带来的变化之后,漆远老师潜水三年,终于要浮上水面了。今天,大家来一起围观潜水三年的漆远老师,带着非共识的观点,讲讲他的AGI 世界观。漆远老师先给我们介绍一下你之前的经历以及近三年你都干了什么? 漆远:我之前在大学做老师,2014 年回国之后在阿里巴巴和蚂蚁工作,三年前回到大学也是向过去致敬。其实我离开工业界,又回到学术界,又再次创业,都是不同的感觉,人生处处有惊喜。 在大厂里工作是带了一个非常大的团队,之前有幸在阿里、蚂蚁参与了那个波澜壮阔的过程,看到团队从0 到1 长起来。我一直很喜欢人工智能,它可以解决没解决的问题。 在四五年前的一次采访中,讲到最高级的人工智能的一个标准是什么?我说是人工智能的爱因斯坦。如果想用人工智能来解决科学问题的话,那我就要先找到有好的科学家的地方,所以三年前我来到了复旦大学。因为高校都面临算力的挑战,所以到了复旦之后做的第一件事就是:在学校领导的支持之下,构建了当时国内高校最大智算平台CFFF,推动了AI for Science 的工作。紧接着A 我们希望有组织地去做科研,去年,有幸推动了上海科学智能研究院的成立。只做这个还不够,科研能不能落地呢?这就是无限光年这家公司成立的意义,希望做为一个样本把技术产品变成落地。这大概就是我过去三年做的一些事,打造了一个智算集群,推动了一家研究院的成立,创建了一家公司。Q:你这三年虽然在潜水,但我觉得你游出去挺远的,在学界帮他们解决一些基础设施的问题,然后在工业界也在做grounding,也做了公司,最终把学术的东 我其实挺好奇的,你之前在阿里的时候属于前ChatGPT 时代、前大模型时代,最近这几年ChatGPT 突然横空出世,顺着Transformer 大语言模型,变出来今天这样的一波浪潮,你这样一个学术血统纯正的人经历了什么样的心理活动? 漆远:在ChatGPT 刚出来的时候,我觉得越是AI 领域的专业人士的人,对ChatGPT的表现越吃惊。以前在大公司里,当时也会关注GPT-1、GPT-2,大家都研究,同时也在做这种大模型。但是当ChatGPT 真正出来的时候,我觉得是超出了预期的。大家没想到参数大了之后,能看到这么好的、超出我们期望的 产品。去年4 月,微软发了一篇文章,叫《Sparks of Artificial GeneralIntelligence: Early experiments with GPT-4》,就是说AGI 的火花。五六年前的人工智能大会上,有一个采访,问大家认为AGI 还有多少年要出现?大部分人都认为是5 年,有的认为是10 年或者50 年。总之都认为都是很遥遥无期的事,有的人甚至认为永远都不会实现。ChatGPT 出现之后,如果再问这个问题,大家会认为AGI 来临的时间会比以前想象的近了很多。这个可以说是一个普遍的共识。甚至这个话题都破圈了,以前还只是技术圈,现在每个行业都非常关心。同时,我内心也在想:我们当年做AI 模型为什么没有做到这么大的程度?再往底层想,为什么当年再往前走一步的时候,我却停在了这里?Q:是不是贫穷限制了自己的想象?因为OpenAI 确实是在这方面投了很多钱才有Scaling Law 出来。漆远:其实整个大学里都是缺算力的,但是今天高校已经意识到这个问题了,正在积极布局往前走。回到Scaling Law,2015 年我刚从美国回来的时候,做的第一个项目其实就是一个基于Scaling Law 的项目,印象特别深。当时是关于我们的核心广告系统。大家都知道,广告业务系统是互联网公司的核心利润来源之一,当时的模型参数是200 万左右,在那个时间点,我们提出要做2 亿参数,100 倍的提升,要把这个数据规模从14 天的数据变成半年的数据,数据特征也会大规模增加。所以当时我向阿里集团要了几千台服务器,掀起了轩然大波。最后,公司还是相信这件事,投入了相关的计算资源,拿到了非常好的效果。我们当时的确看到了Scaling Law 的好处:模型参数百倍的增加之后,整体效果得到了突飞猛进的提升。但当时没有想到的是,上亿还是不够,要更大,走向百亿、千亿,甚至是万亿。即使在工业界,我们也觉得这会带来非常高的成本,学界肯定面临更大的挑战。高校要解决各种各样的科学问题,比如要做气象预测、分析蛋白质的运动、分析材料的新设计,这背后都是AI 计算问题。有很多这类领域还缺乏好的算力支持的人工智能大模型。 Q:其实你当年是尝到过Scaling Law 带来的甜头的,只不过今天Scaling Law 又放大了很多个数量级,当年是上升一个数量级就能看到很好的结果,这还真不是贫穷限制想象的问题,你都没法想象说放大几个数量级之后会怎么样,可能就需要一些很疯狂的人在这里去尝试。 漆远:对,这样的尝试是非常好的,我刚才讲工业界的例子,我们尝到了Scaling Law 的好处。我也可以举一个不太成功的例子。 差不多2009 年的时候,我在美国做教授,当时和材料科学领域非常出名的教授 个时间点,这个想法是非常棒的,也获得了科研资助。但是最终,我们并没有拿到真正突破性、划时代性的工作成果。今天回头来看就是因为没有真正的把规模做起来,其实当年我们在高校里面也用了CPU,并且还是用当时美国高校最大的机群设计了分布式MPI 算法来实现我们的AI 算法。但是和今天的大算力比起来,还是小巫见大巫,所以当时就没有真正的跑起来。 Q:其实在那个时候,整个产业的共识是很难想到要放大这么多个数量级的scaling,放大一个数量级这个事还能可以想象,当时在蚂蚁,在阿里还是能支持尝试的,但那个时候说要放大这么多个数量级,搞到千亿参数,这个倒是很难想象。 我们作为普通人,看到这一波技术变化都觉得非常兴奋,对未来比较期待,甚至我都觉得在这波之前,是你比谁都信AI,今天是好多人比你信AI,反而是像你们这样的学者会觉得不行,因为其实今天还有好多事AI 干不了。 你这三年经历了创业,同时在学界也有一些不同的观点。有没有在这一波技术变革里找到一些自己的新的目标、方向、使命? 漆远:一开始的话是怕退休太早不利于健康,觉得要找点有意思的事情做。当时就是从这个角度出发,先做了CFFF 智算平台,推动了高校里相关AI for Science 的科研,后来Cha tGPT 出来之后其实有点焦虑。作为一个多年的AI 研究者,突然觉得这事不能跟我没关系,但创业做了大模型后也焦虑。 我之前是老师,同时也是工程师。一旦开始创业后,视角和以前是不一样的,既关心技术,又关心市场,不能只看一个点,而是一个系统化、结构化的思考,比以前更复杂。我还推动成立了一个研究院,这也是一个新尝试。我希望能够像打坐一样,看着思绪纷飞,但能够平静下来,把真正好的科研能做下去,比如说在气象预报、蛋白的不同尺度上对物理世界垂直尺度的构建做出来;同时另一方面又希望能有真正的产品落地,希望技术本身可以变成一个产品。做产品的时候其实是很容易焦虑的,大家会想,技术本身是不是在走向真正的市场?技术本身是不是在走向AGI 本身?这两个角度都是我非常关心的。一个是从技术人员的角度,从教授的角度关心我们这条路是否走得通,如果这条路走不通,遵循现在讲的第一性原理,那就耽误事了。归根结底,今天不是简单地说产品到市场的问题,而是首先要看底层逻辑、技术本身是不是把这个产品能走向你要走的地方。 Q:有人说科研很难,商业化也很难,两个是不一样的,结果发现你还是既要又要,你既要技术能通向AGI,又要这个技术在市场上能创造价值,当然确实背景既是学界背景,又在工业界里有过很多年的经验,我能理解你为什么既要又要,但这事确实挺难。 漆远:今天社会需要的不仅是理论文章的发表或者商业模式的创新,而是科技创新与产业创新深度融合,是基于第一性原理的突破。这两个结合不容易,但是可以游到海水更蓝的地方。 AGI 应该是「AI 的爱因斯坦」 Q:我们先从一个简单点的问题开始,你怎么定义AGI?因为现在对于AGI,1000个人有1000 个说法,王小川前两天在我们的AGI 大会上定义说他心中的AGI 就是能出现一个AI医生,能像最优秀的医生一样给人类把病看好了,当然这个不一定严谨,但它很具象。 漆远:对于AGI,每个人都会有不同想法,可以是最好的医生,可以是最好的律师。我首先是个科学家,然后是个工程师。从科学家的角度,我认为AGI 最好的标准就是打造人工智能的爱因斯坦,发现复杂世界的未知规律,其实我五六年前在电视节目中就有说过这个观点。 首先,今天大模型都靠海量数据来做,海量数据是互联网的一个压缩,但是爱因斯坦当时其实是通过几个关键的数据点,就看到了所谓20 世纪初物理学的乌云。然后他会自己产生假设的数据,爱因斯坦说:我假如骑在光上会看到什么?就像今天的一个大模型,这个数据可以是大模型自动产生的,然后再用合成数据来提升大模型。从某种角度来说,爱因斯坦是自己合成了新的数据帮助他提出新的理论。 Q:这属于一种合成数据,是吧?这个想法我还是我觉得有道理,我们的想象可以理解为是一种合成数据,我们提出了对应的问题,然后顺着这个问题思考观测、总结规律,而这个事是我没有办法在历史经验里看到的,所以我只能靠想象。 漆远:因为是未知的规律,当然就会数据少或者只有一些可能的数据来支撑它。从数据的角度而言,相比牛顿提出万有引力定律,爱因斯坦提出相对论是更难的,因为他可以观测到的用于相对论的数据更少。就像深度学习是对已有数据的拟合,并不擅长对数据之外的外插推演,更不擅长多步的逻辑推演。而爱因斯坦结合很有限的物理数据、自己的「合成数据」(他在大脑里想如果一个人坐在光上会看到什么样的世界)和黎曼几何等数学工具,提出了适用于浩渺宇宙的相对论。我认为爱因斯坦就是一个非常好的智能的标准。第一是发现理解复杂物理世界并发现未知规律。这一点是我觉得今天的AGI 目前还没有做到的,大视觉模型SORA 虽然说是对物理世界的模拟,其实离理解物理世界还有很大距离。第二点是功率。一个人大脑的功率大概是15 瓦,爱因斯坦特别聪明,算他20瓦、30 瓦,但是一个电灯泡就是60 瓦,一张H100 的GPU 卡就是几百瓦,爱因斯坦的大脑功率远远低于一个支持训练通用大模型的千卡或万卡集群。 所以我认为,除去情感和价值观的智能,AGI 的一个简单的定义就是:人工智能的爱因斯坦。打造人工智能的爱因斯坦也是AI for Science(科学智能)的关键目标。我在复旦和上海科学智能研究院的长远目标就是用人工智能来理解复杂世界,发现不知道的规律,其中有的是可解释 的规律,有的甚至是人类不能解释的规律。Q:爱因斯坦去思考相对论的时候,人类历史上是没有相关数据的,甚至是在相当长时间之后才通过各种技术进步去做对应的观测,所以很显然它不是从哪些数据来的,它是脑子里合成数据,然后通过模拟,就形成了一个可能的逻辑。这个逻辑结果经过很多年之后被人类有机会观测到,印证了逻辑的有效性,至少在今天我们能看到的东西是有效的,也许再放大尺度就不一定有效了。但反过来牛顿力学的数据量比较丰富,人类天天都在关注牛顿力学世界里的各种东西,我们可以基于这个去做想象推