
事情,类似这种相关的技术,比如像”Devin”一样的agent,可能距离第一个use case的落地还需要2-3年的时间,但是目前是在朝这个方向发展。Patrick:所以今年年底可能GPT-5不会发布,就算发布也只会是比较小的进步?专家:对的。大家可能会看到它变得更加实时化,context window可能比之前增加一倍,价格可能减少一倍,对用户问的问题能够提供更好的回答,会有类似于这样的一些进步。按照目前技术的能力包括收集数据的能力,还达不到撰写分析报告并进行验证的能力。Patrick:目前大模型实现颠覆性创新所面临的主要挑战是什么?专家:如果想要让Al agent达到AGI的一些功能,就需要让它实际去做一些事情。现在谷歌的做法是专门为AI建立了data center,虽然这种做法具有一定的危险性,但是这是通向AGI的必经之路,就是让agent可以运行相对比较free的一些程序。在这个过程当中,控制AI去写程序的本身也是一个attention的model,需要收集很多的数据,因为attention model是遵循data scaling law的。现在的主要问题是无法收集到足够多的反馈数据,例如,现在正在做一些AGI的数据分析agent,比如希望agent能够帮我写一个股票交易算法,并且能够进行很多回测,写完程序之后帮助完成模型平行化的部署,这中间需要很多步骤,需要写代码,需要部署代码,并且希望尽量减少人工的干预。在这样的过程中,发现了很多的错误,甚至包括比较愚蠢的错误,例如它会装很多Python package,然后无法解决package不同版本之间的冲突,这就需要很多用户反馈的数据来较它,就像新员工进入公司有老员工带教一样。现在就做AGI的architecture而言,除去安全性的各种问题,收集这种具有指导性的反馈数据也需要比较长的时间,这种数据无法通过模拟数据生成,而且需要的是上千亿超大规模的数据量的模型,仅收集数据可能最快需要1年半,训练模型还需要半年。现在会鼓励员工尽量用agent来帮助他们做一些平时的任务,但是现在实际上的成功率只有1-2%。另外,发现错误之后,还需要进行中间指导,像这样的上百bn的模型至少应该需要收集上百万的use case。Patrick:最近在多模态方面有哪些进展与创新?专家:多模态现在在文本方面没有什么问题,但是个人认为在多模态生成方面的热度有所下降。例如,现在多模态生成的商业化落地会有一些具体的setback。在多模态输出方面,一个很大的商业case是通过生成视频和图片做广告,和广告团队经过一年多的时间测试下来,发现用户逐渐失去了对AI广告的兴趣,并且开始有意回避AI生成的一些内容,特别是广告,例如利用AI生成图片的商品的转化率会低于自然拍摄的图片。在多模态输入方面则进展比较快,之前主要遇到的问题是,例如像Sora及ViT去做一个Patch,需要的计算资源是非常大的,比如输入一个视频,需要每秒捕捉20帧,并且每一帧里面可能会有很多的Overlapped Patch,所以整体来说需要消耗整个model非常多的计算资源,这也是为什么大家在用收费版的GPT时会发现在当你频繁上传图片或者其他一些大的文件时,quota就会用得比较快的原因。现在为了解决这一问题,大家开始尝试与传统的包括CNN、Object Detection等方法结合,然后用一些更直接的feature生成方法,比如EfficientNet等,生成一些基于视觉的功能,而不是像以前一样只是做一些点到点的a ttention。所以大家会逐渐看到模型会越来越小,速度会越来越快,因此最近几个月的进展主要是在于如何能够让multi-model的输入更smart地交给模型去处理。Patrick:如何看待最近OpenAI的人员变动的新闻及其对AI的进展可能会造成什么影响?专家:个人觉得这可能是一个个人行为,最近也有很多OpenAI和Character.AI的人过来谷歌。其实OpenAI现在主要的问题并不是和谷歌的竞争,而是大家每年都会在这方面烧很多的钱,但是OpenAI的模型跟包括Claude、Llama以及国内的模型的差距越来越小,因此如何能够拉开和其他模型的差距,特别是和Llama3.1的差距,让用户愿意为他付费成为其主要问题。现在越来越多的公司愿意自己做企业的RAG,比如Cohere等,然后用Llama3.1最大的model的运营效率现在也挺高的,因为现在包括做PyTorch的大模型训练,做fully sharding的data parallelization,以及在开源的VLLM上做 大模型的serving的效果都很好。因此,OpenAI和其他几家模型的差异化变得越来越小,这还不包括像xAI可能未来会发布的模型,xAI可能会有一些别人根本就没有的数据,因为有些消息可能只有Twitter上才能有。虽然现在有愿意付费的用户,但是免费的用户太多,而且你的模型流量越大,可能亏的钱就越多,这也是为什么Character.AI去年是非常火的,现在其实相当于是卖公司卖了,整个团队都来了谷歌,就是用户量大流量大,反而造成钱很快就会被烧光。现在To C端普遍都有这个问题,包括谷歌,像现在谷歌把AI Overviews的对话功能取消,虽然这里面有出于对产品方面的理解,但是也有一个原因是想把模型变小,也就是说谷歌也不想在AI Overviews免费的东西上面烧这么多钱,然后之后很快会推出一个新版本,会为付费用户提供对话功能,免费用户则不提供,并不会因为Perplexity有对话的功能就一定要与其进行peer to peer的竞争,谷歌流量实际比Perplexity要大很多,流量越大免费用户则越多,从长远来看,可能就算是谷歌也无法负担起这样大的支出。总结而言,这是To C的这几家公司都正在面临的一个瓶颈问题。匿名投资者:业内有传下周Gemini推新版本,具体情况如何?GPT会应对推什么版本?专家:其实这两家公司都有很多存货。今年1月份开始,在公司内部做项目就需要用Gemini2.0的框架去做,具体并不清楚要发布什么东西,但是应该不会发布一个major的2.0的更新,更有可能是1.5的模型更新,然后很可能是一个小的模型,因为这是公司现在努力的方向。无论是谷歌还是OpenAl,目前都存了一些这种渐进式的改进,现在可能主要是看对手什么时候推出,谷歌再什么时候推出。按照现在的竞争格局,包括DeepMind最近发布了一个新的1.5的改进版,这个改进版也不是最近训练的,是之前训练的,发布之后这个模型一直排在第一名,但是之前的Gemini一直都没有排过第一名,所以发布的新版本更大可能是一个渐进式的改进,类似于GPT-4o对于GPT-4,用户会觉得速度快一点,价格低一点,context window能够更长一点。假如大家是用Gemini2.0的话,会发现完全不一样的一些feeding。Major update 可能谷歌会等到GPT发布之后再说。匿名投资者:请问专家怎么预期GPT-5的技术性能?是原生多模态的大模型么?专家:GPT-5主要是 做了一些advanced planning#ladvanced reasoning, in过Q-star模型,即在生成token的时候会有另外一个模型,它能够不断地指导模型去生成更正确的token,包括做一些token的回退。因为现在做自回归模型其实是有瓶颈的,比如如果中间的一个步骤生成错了,没有办法回退,不得不在后续的对话里让它不断纠正。自回归相当于如果犯了一个小错误,之后所有错误都会产生复合效应,所以想要提高模型的规划推理能力,需要一个老师不断地在过程中进行指导。这个老师其实就是一个RL的模型,RL模型的一个非常重要的点就是要做sequence leamning(序列学习),序列学习本质上就是用attention去做。不管是在GPT-5还是Gemini3.0的agent框架里面,都会支持中间回退,多步推理以及long-term thinking的架构,这个应该是大家更期望看到的GPT-5或Gemin的功能。当然,大家可能还会期待看到在一些专业领域的进展等,这就涉及到从Gemini2.0开始,包括GPT现在有好多专家模型,不是指MoE,而是每一个领域里面的专家,然后专家回答的东西会让用户感到非常专业,因为每个模型使用特别的专家模型去做的,是基于common的底座,用不同的专家去做的,这一方面用户应该也会感受到非常不同的体验。例如现在如果问一些专业的法律问题、医疗问题、或者一个特别tricky的coding问题,其实是很难去解决的,在更高级版本的模型,通过特殊的tuning,实际上是可以对这些问题有一个比较好的理解。匿名投资者:怎么看待最近GPT-5会在几周后发布的传言?专家:关于GPT-S是否会在几周后发布,目前只有公司高层知道具体情况。版本号本身并不重要,如果大家期待的是新版本能够实现更长的context window、更多专家模型以及更高的MIMU指标,这几家其实都可以随时进行发布。但是如果大家期望的是一个能够进行long-term thinking,并且能够去写真的code并不断验证的模型,目前了解到的这几家的技术实力尚未达到这一水平,框架是够的,主要瓶颈在于数据不足。匿名投资者:总体上,各家大厂在大模型训练上的军备竞赛,有竞争放缓的迹象吗?专家:目前来看,大厂在大模型训练上的竞争没有放缓迹象,尤其是在To B端。尽管AI功能现在在work space中的渗透率没有上涨,甚至还有些下降,但是谷歌也是雇了很多marketing firm去做了很多的研究,包括谷歌很多的客户也是Hybrid Cloud也会用微软的Teams,调查表明如果不推出类似的功能,这会成为用户切换到其他家的一个主要理由,所以公司对于在算力、人员、收购等的投入上,以及公司管理层决定的priority级别,和去年相比没有任何的变化,反而感觉公司在建更多的AI数据中心,推出更多的性价比更高的模型。谷歌和OpenAI有算力方面的优势,能够占领很多中等SaaS公司的market share,因为这是有规模效应的,比如TPU计算的成本其实是非常低的,所以如果有些玩家跟不上这个步伐,没有足够的资金、买不到芯片、或者设施条件无法满足Blackwell芯片的安装等,这些会让这些玩家的步伐变得相对说慢一些,这会成为用户切换到其他平台的理由。所以,To B端的军备竞赛整体来讲还是非常火热的。ToC端,虽然这几家也都在烧钱,但是会变得有些谨慎,考虑到大量的免费用户以及用户对于AI生成图片的负面情绪,所以在ToC端会有些减缓的趋势,还需要找到一 些在To C端不放广告和不收费的情况下,能够让收支平衡的use case,现在谷歌只是找到Circle to Search,所以这个还是个比较大的问题。而且To C端现在除了算力之外,购买数据版权也是一项很大的支出,例如购买华尔街日报或CNN的数据版权,每年的license费用可能达到几千万美元。匿名投资者:谷歌这两年算力投入是否持续上升,内部RO1是否支持持续投入?专家:谷歌今年的算力投入可能至少是去年的两倍。不管是能够带来直接商业利益的Circle to Search,还是一些其他如果不做就会被竞争对手抢走用户的功能,对算力投入的需求都是越来越大的。因此,不管是主动还是被动,谷歌都加大了算力投入。不过,这种投入对于谷歌来说应该是可以manageable的。实际上,最近几个大的云厂商都在削减办公室的数量以及一些员工福利,所以对于谷歌本身每年节省几个bn的支出,实际上是没有太大的困难的,例如,从去年到今年,谷歌大概减少了20万的外包人员,这些外包主要是做人工审核的,包括审核视频和广告的违规,这主要是得益于Geminil.5以后的multi-model的能力,能够淘汰底层2/3的审核人员,也因此节省了很多钱出来。然后,谷歌从去年到现在,仅在湾区就关闭了大概30-40个办公楼,以及减少了员工的晋升等。所以,从员工的角度,能够明