您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[未知机构]:腾讯混元刘煜宏20240704 - 发现报告

腾讯混元刘煜宏20240704

2024-07-04未知机构L***
腾讯混元刘煜宏20240704

做大模型可以有「深圳速度」,但不能跳步 Q:去年9 月腾讯混元大模型正式对外亮相,前段时间也发布了元宝这样一个比较AI Native 的产品。但外界总体感觉,腾讯比较沉稳,没有疯狂抢先手、也没有一下放出很多产品,情绪一直比较稳定? 沉稳的背后,腾讯在大模型上是怎样的策略? 刘煜宏:其实是「外松内紧」。外界看到不着急,感知混元推出来比较晚,但坦白来讲,这是一个非常卷的赛道,我们内部的节奏是非常紧张的。 腾讯从战略上一直将大模型和生成式人工智能,视为百年不遇的、类似工业革命一样的机遇。 对外产品上,去年9 月推出了「腾讯混元助手」小程序,今年5 月30 日推出了元宝App,( 也推出智能体开发平台——元器),但这些背后的底层能力其实我们做了很久,像广告大模型在21年就开始做了。元宝App 发布一个月不到的时间里,更新了五六版,每一个小的迭代都解决了一部分问题。 去年我们没怎么对外发布产品,其实是内部率先用起来(大模型),比如腾讯会议、文档,微信读书的AI 助手,包括它们在内很多内部产品已经在用了,除了API 的方式接入,还有一些业务会做精调。到目前为止,腾讯内部有接近700 个业务接入混元,基本上腾讯所有的(业务)都用。 Q:OpenAI 一声炮响让大家看到这个新的趋势,去年腾讯内部对于大模型是如何判定的?当时做决策的真实情况是什么样的? 刘煜宏:GPT-3.5 出来前后开始做混元这个项目。一些底层相关技术做得更早,刚才提到广告大模型在21 年就开始做了,搜索相关的「推广搜」场景也做了很久,运行大模型的底座从一几年开始就在建设。 对外的产品节奏看起来体感很慢,因为一开始便深知这是一个长期的项目。原来还说百年一遇,现在发现是几百年一遇的项目。不是短期一窝蜂就能搞定,像做原子弹,只有一步一步积累,把底子打牢。 举个例子,做底层涉及到网络问题,没有网络、算力,怎么训练?钱能跟上吗?预算怎么投怎么收?等等,都得考虑。我们比较清醒,对底层困难预估得足。 一年半前我们判断,一年后国内的几家大厂在大模型能力都差不多。目前也认证了这个预判。我们虽然压力大但有比较多的试验机会。 Q:在大模型上,业界大家都比较着急,也有创业者认为这个时候快速跟上是第一目标,甚至可以基于开源模型做post-train,因为开源模型「看」过的那些数据,没必要重新再「看」一遍。 刘煜宏:我们从来没想过这条路,一开始就决定冷启动,从0 到1 完全自研,是一条非常艰难的路。 腾讯做产品有个原则,得自己验证一遍,连颜色、像素、排布的选择都是试验出来的,页面设计成瀑布流留存率就有多高?对男性用户如何?等等这些都是ABtest 出来的。OpenAI 过去几年 走过的路,模型从1.0 版本到4.0 版本他是怎么走的?就算过程中你按他披露出来的一些技术路线走,该做的实验一定不能少。比如也有很多超参数、数据配比要调,甚至中英文数据比例怎样才是效果最好都要做大量实验,花了很多时间在这里。 Q:打个比方说,下决心要给新时代生个孩子,不是说赶紧抱一个过来,是要生一个亲生的感觉。刘煜宏:对,我们从一开始就坚定了全自研路线,追求自研、可控度、安全。从0 到1 自主探索,包括训练、推理的框架平台,模型预训练、精调、强化、怎么对齐,数据,投入了大量资源。 坦白来讲,大家都在看OpenAI 的路线,但不是你按GPT-4.0 的套路走,就能行得通。 Q:要从0 到1 走一遍、但要更快速地走一遍,而不是找个捷径只为了追上某个点。那么设定的这个起点是哪? 刘煜宏:如果说大模型,可能从Transformer 甚至更早。 目标是有的,但不能跳步。不能看到GPT-4o 出来了,发现多模态融合做得好,就不考虑GPT 能力都强。但直接按GPT-4o 路线走,估计大概率会失败。 目前来看大模型怎么选择路线,还是一个实验科学,你得堆资源,人力,数据训练,当看到就这么一条路,那么选它有很大概率会成功,把他们探索的加速走一遍,而不是直接到终点等着说就按这个路线走。 Q:大模型技术变化非常快,一边挖地基、一边盖楼的感觉,这楼现在一下都盖到比方说5、6 层了,统一多模态什么的全出来了。压力会不会更大?还是说,打地基和不断盖楼的过程中,更有信心了?刘煜宏:跑了一遍,当然更有信心。你看到盖到5、6 楼,不代表前面1、2、3、4……楼就不需要,只不过你可以盖得更快,深圳速度一天一层楼类似这样,所以一定是要把从零到一的过程重新走一遍。 Q:你们的做法还是很严谨的。煜宏你在腾讯多少年了? 刘煜宏:我05 年加入的。 Q:20 年了,那你一定对腾讯的风格非常了解。去年很多大厂积极地抢身位,腾讯好似不争不抢,但在内部挺较劲的。这个是腾讯骨子里带的做事风格?刘煜宏:我在腾讯一直做技术。坦白讲,做技术、产品是可以借鉴的,但也有个词叫「空中楼阁」,没有地基你就上不去。这可能也是腾讯的风格。别人用三年从版本1.0 迭代到5.0,你用半年走一遍,如果说产品和技术有参考,那么最大的参考意义在这过程中。走一遍你会遇到同样的东西,这时候会理解,「哦,为什么是这样」,走一遍后也才知道,也许因为用户群、生态等不同,另外一条路可能是更好的选择。02从需求中 「长」出来的元宝App Q:你刚讲很多腾讯内部的产品在用混元大模型了,能不能举几个混元给原有产品带来新的Feature(功能/特性)的例子? 刘煜宏:最新的例子,微信读书里的AI 读书;微信输入法AI 帮助扩写;腾讯会议里的AI助手,能给晚加入会议的观众总结之前别人讲了什么,把一次很长会议的会议纪要给摘出来。还有腾讯文档里的续写;企业微信里的翻译帮助与海外同事交流。现在腾讯旗下的协作SaaS 全都接入了腾讯混元大模型。 再早一点的例子,智能客服在内部最为普遍。其实在用大模型之前,智能客服就做得挺成熟的,但大模型还能再提升20%,这种程度的效率提升。 其实做了(大模型)产品之后,也帮助了自己很多,比如用code copilot 写代码(涵盖前后端开发,C,C++,Java,Go,Python 多开发语言)的采纳率有30%,相当于100 行代码有30 行是AI 写的,而且被采纳。设计师设计logo 时也用AI 文生图来帮忙,每天千万级收入的广告业务的一些素材,就是用AI 助手来做的。大模型对于降本增效起到很大助力。 Q:你刚提到,腾讯内部接近700 多个产品在用混元大模型,算是混元的「内部客户」已经有700 家了,那你怎么服务得过来?同时还得兼顾不断前进的技术。刘煜宏:内部调用量大概将近3 亿次了。去年我们发布(节奏)慢,一部分原因也是我们投了很多资源先服务好内部的「客户」。腾讯做事情,对外开放前一定要先在内部打磨好,自己的狗粮自己先消化。 同时,腾讯确实有最齐全的业务场景,办公协作、游戏、社交、推广搜等等。在这些丰富的场景中,也能练兵,也能练模型。精调、以及其他给产品的反馈,反过来又反哺到主模型里。比如,会议总结、function call 等。 对于内部产品接入混元,我们提供三种模型来支持。 第一种叫全托管,给没有那么强研发资源的团队,他们提业务需求后,我们想办法把模型精调好,他拿走直接用;第二种叫半托管,有些业务有自己的研发,也能做算法优化,我们一起共建,一人一半,他们搞不定我们再上。最近两年「开源协同」在腾讯内部很流行。 还有一种,我们把模型开放后就不管了,剩下的业务如果有需要,自己加数据、自己调。我们去年也是花了大半年,慢慢把几个模式跑通。我们提供一站式精调服务,叫「混元一站式」,允许他们做各种创作、优化,内部根据需求调用资源,模型、算法、插件。Q:三种模式占比如何? 刘煜宏:7 成左右拉API 就可以了,啥都不用管。另外3 成多少要精调,这其中拿走模型完全自己精调的会比较少,因为有门槛,我们一起参与的进展会更快。 Q:70% 的业务直接调用混元API,30% 要精调,哪些产品、业务要重点支持?这个选择权到底在谁,或者看业务部门谁更有影响力吗? 刘煜宏:这时候我们会基于两点考虑,一是复杂度,投入多少资源能帮你解决问题;二是同等难度和投 入的情况下,先考虑战略重点。 资源配置上,其实主要看客观需求。目前70% 是API 模式就能搞定,用的是大模型的通用能力。那就看什么场景用大模型的通用能力就可以解决,比如像娱乐场景这样容错度高的场景,没有强解决问题的能力也行。但要做金融、医疗、法律等严肃场景,不能有幻觉,通用API 不一定搞得定,要专门精调,为严肃场景做大量优化。 所以,第一是看用户选择。第二,这个数据在不同阶段也会变。最开始我们支持腾讯会议、腾讯文档时,扩写、润色、总结能力都是需要定制的。一旦做好了,这个能力就能变成通用API 能力,开放出来给以后接入的业务用,这时候就不再需要定制了。比如给腾讯会议做好了,腾讯文档、腾讯邮箱也有类似的需求。 Q:把模型做好,这几种模式跑顺,服务好700 家「内部客户」,是挺花时间的,所以你们去年不着急对外说,是在忙着解决服务内部的问题。 刘煜宏:最开始做混元,没想要做ToC 产品,是要把基础模型打磨好,服务内部需求,这是我们原来的逻辑。 当我们在内部很多产品、不同场景里验证后,发现这个能力可以拿出来给大家用,所以去年9 月份推出了「腾讯混元助手」小程序,因为觉得在微信生态里也可以用。但后来发现这样做也有不足,比如使用时被聊天打断,没法持续地对话,它就没法成为一个好用的AI工具。于是推出了App。 整个过程里,我们不断地思考、调整方向。从做一个底层模型、一个基础功能、平台服务内部业务,到后来发现,如果不探索原生AI 大模型应用,不知道怎么跟业务更好合作,所以又前进了一步,从小程序,到Web 产品,App 产品。 Q:市面上也有很多比较热的大模型产品,主打陪伴类等等,你们「元宝」做得比较简单,界面就一个框,当时是怎么思考的? 刘煜宏:选择现在这样的界面,还是想回归「用户到底需要一个什么样的AI 产品」? 现在大模型的使用人群,学历较高、职场人士占多,所以偏工作和学习的场景更重要,娱乐属性也有,但重要性相对低。相应地,我们的slogan 也调整成,「轻松工作,多点生活」。不是不做娱乐,也留了一些智能体在上面。我们也有开放的平台——元器,上面能做很多智能体,角色扮演、陪伴等等。 先选择把生产力场景的用户痛点用AI 搞定,信息搜索、写文档、想创意、知识获取、阅读等需求。 比如搜索场景,我们先做好信息搜索、大模型「阅读」顺畅,又改善了信息源的陈列,提供了又简洁又分层次的信息源,提高生成内容的可信度,规避大模型的幻觉。后面围绕着搜索、阅读、写作、画画和创作等场景做好,这些被视为大模型的基础能力。我们做产品经常说,做加法容易,做减法难。这是为什么我们一开始就用很少的东西,用一个AI 搜索做,另外还有一个发现页面,上面有些智能体,目前并不多。这也代表腾讯一个做产品的理念,小而精,做减法。先瞄准能提升大家效率的、最有用的场 景,把它做透。我们希望提升信息组织、以及信息被找到的效率。 Q:为什么不做娱乐产品?是产品取向选择,做提升生产力更重要?还是从技术上来看,认为做娱乐对于技术提升不重要? 刘煜宏:不是说娱乐不重要,大家还是需要情感陪伴的。当下先选择工作和学习场景,第一个有选择的原因。第二个,当我需要陪伴的时候,AI 能给到什么样的帮助?角色扮演的产品有很多,但(模型)能力做不到那么好。打发时间,暂时只能做到这点。 Q:人们对「杀时间」的事包容度高,模型能力没那么好也能没准让用户愿意掏钱。 刘煜宏:对。这是选择问题。我觉得选择娱乐场景这个目标,对目前大模型的这个阶段的发展不是很好。基于对自己的认识和选择,先把技术能做的做好。我们先把底层模型、基础的产品体验、元宝体系做好了,在此之上开放一些东西,就像微信,小程序,公众号,都是生态。那娱乐的事情就交给生态产品,QQ、游戏、视频、音乐,他们做娱乐场景比我们更擅长。 Q:腾讯本身就是一个庞大的产品生态,元宝未来会跟腾讯