您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。 [未知机构]:字节跳动机器人:技术路线、人员变动与后续展望 - 发现报告

字节跳动机器人:技术路线、人员变动与后续展望

2025-07-03 未知机构 林菁|Jade
报告封面

2025年07月07日 12:57 发言人1 00:00 在光大机械首席黄绍斌,这次的汇报一下字节跳动的这个机器人的一些情况。因为昨天晚上的话有一些媒体报道说四川这边发生很多变化,但是最近确实有一些人员变动,也有报道说有2000台机器人等等,所以这个信息也是非常的鱼龙混杂。所以这次的话我们就对它的整体情况做一个梳理。当然的话我们也没有请专家,主要还是基于一手资料以及一些独立的思考。因为我觉得像这种情况的或者是信息量也很多。如果请专家其实也是有时候的话有几个标的可能在这当时这种在现在这种情况下,我感觉可能也没什么用。对,所以的话就还是做一点基础的研究,把他这个来龙去脉,包括现状以后的展望说清楚。 发言人1 00:55 整体上分为五个大节五大节。第一大节就是介绍一下背景,首先是介绍这个背景,我看一下。怎么翻不了一了?好,翻不了页,那绘图你能看到翻页吗?老师我这边可以看见。 发言人1 01:21 好的,对,首先介绍两个部门,一个叫AI lab,一个叫seed。AI lab成立的早一点,就是叫字节人工智能实验室,16年成立。然后18年的时候就有150人表示作为这些研究的核心部门。但当时的话属于支撑部门,叫技术支撑部门。然后20年的时候,他的定位从前瞻性研究转为技术中台,整体的汇报对象也有有一些变化。到2020年中的时候,这个AI外部的负责人由李航接任,这个李航也很重要。 发言人1 02:01 然后C的团队是2023年成立的,成立两年确实没有什么大的动作。一直到今年的二月份,邀请了前谷歌deepman的副总裁吴永辉加入。这吴永辉也是在deep mind在谷歌干了17年,业界号称大模型扫地僧,也是很有名。然后出任这个C团队的几负责人,然后的话开始调整,把AIlab的一些功能并入C的。到今年4月份的话,这个AIlab一些整体的并入C的。所以这个李航也就是可以看到,他就是本来是第一负责人,现在想向吴永辉汇报。也可以说这个AI lab被并入系列之后,它的定位还是层级有所下降。 发言人1 02:49 对所以目前的话市场更多的关注点就是C的他要招一些人,然后招一些比如说六月份的时候,有媒体报道说,思域的团队将招募多个机器人相关业务的一号位。所以这两个部门的话是一个合并的这样一个过程。它的起点的话或者说价格变动,就是从文委会的加入开始,到现在基本调整完成。 发言人1 03:14 然后介绍三个人,第一个人叫做李航,目前就提到过,你看他是98年在日本东京大学获得计算机科学博士,研究领域是自然语言处理、信息检索、机器学习和数据挖掘。资历的话也很深,2021年的时候在微软,然后12年到17年是在华为诺亚方舟实验室,先后担任首席科学家和实验室主任。再后来的话,17年被挖到自己担任AIlive的主任以及研究负责人。因为他是参加工作比较早,90年以前就参加工作了。近期的话也有外界传闻说李航卸任了,说他内部系统的身份变化。后来也有辟谣说没有卸任,实际上是退休返聘,说明确实年龄比较大,已经退休了又返聘。 发言人1 04:06 第二个叫孔涛,也是最近市场热议的一个人。孔涛的话这是他的个人主页,其说的比较辛苦了。19年获得清华大学博士学位,导师是孙富春教授。对,博士毕业之后就来到4节更多调研,既要添加微信OKOK5892担任这个技术研究总监,进来的也是这个AIlab。对,所以他博士毕业进入AIlab的时候,当时还没有做机器人。所以他自称就是在那里建立并领导一个优秀的机器人研究团队,开发了先进的机器人系统技术和系统。所以这个AIL的机器人的业务就是它的主导价建立的。所以这个人也是有很强的领导力和创新能力。 发言人1 04:52 目前的话他已经从字节离职了,他的主页上已经写的很明白,startingthe new face就是开启了新的阶段。如果感兴趣可以给他发邮件。这就意味着他进入了创业阶段,开始招人了。那么孔涛的离职的话就意味着字节跳动失去了在机器人领域的一个核心骨干。因为他是AIlab机器人有个主导者,所以他的自学的成长速度是非常快的。19年博士毕业拿下校招offer,到今天这个位置,其实还是成长非常快的。所以的话字节曾经也把它作为一个榜样的力量,就是说宣传过就写了那些曾经选择加入阶段的顶尖技术同学现在怎么样了,就把他这个过程写的非常清楚。 发言人1 05:40 19年拿下校招方法,那时候公司没有研究这个方向,所以他就是有点犹豫。那么自己既然自己让他做这个0到1的事,他也很勇敢。接下来这个任务也可以看到的话,就是确实从零开始。比如说做这个机器人,分辨出不同场景的不同物体,兼顾速度和准确度。 发言人1 06:00 然后的话压力很大,不知道怎么做,经常陷入自我怀疑。主要是领导提醒他,给他一些点。我很快的话,他就在他的领导点拨下做出成果。这个成果的话就做的很好,又快又好,发表在一些期刊上。现在还有很多人在沿用对。这就说明其实这个AIlab当时的环境还是比较宽松的。另一方面说明积累确实很薄弱,基本是从零做起。 发言人1 06:30 后来的话,五年过去之后,到了2024年,它已经是AIlab进行研究的director。当然他是受李航领导的,李航是他的leader。他领导150人的团队,在带领来自全球各地的优秀的同学做这个通用机器人。可能一直到今年6月份一直都是这个状态,他也确实做出了一些成绩。 发言人1 06:55 比如说最开始的这个solo用来让机器人区分不同物体的方法,就是前面说的那个最有标志一些成果就是两个大模型,两个巨型成的大模型,一个叫GR one,一个GR two。这两个大模型就我翻阅过目前主流的大模型,我发现这两个大模型是独树一帜,属于开宗立派那种地位。他这个方向以前没人用过,对,而且他创造之后效果也特别好,一度是成为最优的。这种最优秀的效果就是收藏。 发言人1 07:29 那方法就是让机器人在用互联网视频来训练,这是第一点。他以前的话大家都是用很大规模的去那种数据集去采集瑶操作或者数据用大规模数据去去训练。用一些高质量的方法是高质量的数据去做微调。这就是我们像泰林,志源,包括那个G,包括那个RTYRTtwo,这种方法是比较主流的方法。但它是用视频来训练,这是第一点。 发言人1 08:00 第二个的话就是它这个大模型可以预测未来一段时间的动作的这个画面。然后的话就把这个这就意味着大模型不断能够看懂世界,听懂,而且能够预测未来一段时间的发生的事情。然后的话他在后续的阶段加入一些少量动作,数据就显示其实这个机器人能够做出的动作,而且机器人做的动作的话和他的预测的这个画面非常吻合。这就代表它其实预测的非常准了。而且预测的跟实际执行的不吻合的时候,他可以做修改。所以他是一个开宗立派的一个代表,是一个非常新颖的一个路径。所以他从19年一直干到2025年的六月份,后来离职创业了。 发言人1 08:46 第三个人叫吴永辉,01年的时候毕业于南京大学,08年的毕业于加州加利福尼亚和平分校。然后加入google一直干了17年,直到今年2月份进入字节跳动C的。当然他的google的话也是经历了几个阶段。第一个阶段是在google做这个软件工程师14年的时候进入这个google不愿googleone的话。后来在2023年的时候和这个deep man整合了,叫google deep man。所以他就进入了互动第斯曼一直干到研究的副总裁VP而且执行力特别职级特别高。据说最高是11级,只有两个人,那么他是第十级。 发言人1 09:26 然后二月份加入了字节跳动的这个系列实验室。所以发现其实这三个人的来回变动,或者说两件事情,AIlab和系列的合并,然后我有会到来是这件事情的主要的脉络。就因为字节跳动要整合内部的机群的业务,所以把AI lab并入了C的。然后的话把吴永辉引入了C的。 发言人1 09:54 接下来就是孔涛的离职和李航的转向,吴永辉汇报,退休返聘对吧?所以架构的调整是人员变动的导火索,也是你我。这三个人的话,你可以看到斯里最老的是李航,其次是吴永辉,最后是孔涛。5到19年参加工作,其实还算也是个新一代,就是青年学者。吴宇辉算中年,你还要算老年,所以他们这个知识储备或者说技术路线还是有区别。 发言人1 10:28 从公共学术这个显示来看,李航的话他在07年发表的这个关于排序学习的论文引用量是最高的。他也曾经写过一本书叫统计学,统计学习方法,这本书的评价也很高。就可以看到他的这个看家本领,或者说学的最多的其实是在排序统计这种比较传统的一个算法。 发言人1 10:49 如果亏的话,在googlebrain任职九年,当时主要是做语音识别,语音方向或者是机器翻译。其实也是比较上一代的,就是NLP和CD这种自然语言处理和图像处理这一类的。但是他在googleand和deepmind合并之后,也进入google。Deepmind进入到这个新的部门之后,他也参加了GB的研发工作,也是GBD1.5的核心贡献者。所以他就是在大模型和多模态大模型里面也是有很强的积累。当然现在的基金已经是2.0了。 发言人1 11:25 然后孔超的话其实可以看到,他是从清华大学新四分。从能力圈来看的话,他应该是从图像自己起家的。所以的话刚进19年进入AIlab之后,做的是物体识别和快速分割是吧?全是关于图像CD这一类的。做完物体识别之后,它在2023到24年就开始发力了,先后做了GRone、GR two这两个最有名的我们还 有moma force,还有其他的一些专利这种东西。总体来看就是从图像识别到是真实世界的反馈。最后的话到V1A大模型,他已经完成了自己的这个计划了。或者说闭环最终来到了VLA大模型这个领域。 发言人1 12:07 所以这三点的话其实你可以看到,因为年龄不一样,所以他们的知识储备也是在逐级递进的。李航的话就是最传统的算法,没有规的话就在语言大模型和多模态大模型。用空号的话其实到了加入action到VLA大模型。 发言人1 12:26 然后还有值得一提的,恐怕很多小伙伴因为他一个人肯定做不出来。所以的话我们就对比了他的最主要的三篇论文。一个叫ex local meter,就是一个偏理论的东西。 发言人1 12:36 还有两个成果GRY和GR two。你可以看到它的这些小伙伴还是比较稳定的,比较核心的就是这个人秦来和这个雅静和吴洪涛这三个人的话其实出现频率最高的对,所以我们也扒了一下,就是说GR two最后的贡献表明这个模型的评估是由红刀经常力和做的。然后模型和训练是由龚涛、雅静、吴洪涛做的,数据收集是由这几个人做的,内部赚钱是由自己人做的。所以可以看到确实刚提的三个人还是核心骨干,但都比较年轻。因为这孔涛是19年毕业的,后来吴洪涛敬仰,还有这个警察令,还有张翰博,其实都还比较年轻的。大概都是在他在GRY是二三年发表的,就基本都是在22到23年或者二三年底那时候加入的。有这些人加入之后的话,就看到他们的能力圈就发生了很大的变化或者提升,迅速的搞出了grn加粗这两个工作。这两个工作其实很有名,我听过像什么陈建宇许华哲他们讲飓风大模型的历史,就加二的话是必讲的这两个真的是属于独立一派的。所以你要分类的话,可以把大模型分为3到4类或者4到5类,但加上加速并不是单独的一类,那个方法确实很新颖。 发言人1 14:03 对,所以其实就可以看到,还有总结一点,当然就加了加父母之前也研究过,就在这个去去大的性病年时这个推文里面就说了,他是项非常创新的工作。他放弃了工作之前那些所谓的大规模数据集的预训练和微调的路径,转向了用这个互联网规模的数据让这个模型具备理解世界能力,还能够同时还能预测未来一段时间的画面。然后的话让大模型做出动作,实际的发现这个预测的画面跟他做的东西非常吻合。所以可以看到这个孔涛他的是比较剑走偏锋的。但是他的领导新来这个领导的话,其实是比较学比较学院派的,他的这种工作17年,所以他是肯定是沿用过去那套方法。先从语言大模型再到多模态大模型,就从LM到VLM再到VLA,这条路径应该是他比较熟悉的那