您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。 [未知机构]:dcjsjdsv32应用再迎助推剂ds预训练算力不足所谓 - 发现报告

dcjsjdsv32应用再迎助推剂ds预训练算力不足所谓

2025-12-02 未知机构 测试专用号2高级版
报告封面

[庆祝]核心亮点:1. DSA技术大幅降低推理消耗:大白话,以前L长度的上下文需全部两两做计算,现在先通过一个很小的indexer 选出k个最重要的token(所谓top-k),大幅降低推理算力消耗(计算复杂度从L的平方降低至LK,其中k远小于L)。2.进一步扩展后训练规模(超预训练10%),并通过agentic任务合成系统,在部 [玫瑰]【dcjsj】ds-v3.2:应用再迎助推剂,ds预训练算力不足,所谓”通缩”需着眼未来 [庆祝]核心亮点:1. DSA技术大幅降低推理消耗:大白话,以前L长度的上下文需全部两两做计算,现在先通过一个很小的indexer 选出k个最重要的token(所谓top-k),大幅降低推理算力消耗(计算复杂度从L的平方降低至LK,其中k远小于L)。2.进一步扩展后训练规模(超预训练10%),并通过agentic任务合成系统,在部分基准上达到甚至超越了Gemini3等水平。 [抱拳]不足:1.在一些高复杂度的agent任务中,成功率不如Gemini3pro等(ds 12% vs gemini 64% )2.达到与Gemini同样的效果需要更多token。3.世界知识不如Gemini等。 同样的效果,更低的成本,国内应用原本受限于模型能力与成本(消费能力),现在DS V3.2等于说在部分场景拉平了这一差距,国内做应用更强。叠加应用低筹码+豆包手机等因素,看好应用行情。[强]税友、金山、合合、深信服、fubo集团、金蝶等,手机相关产业链。 ds论文最后明确写到,与前沿模型相比,世界知识的广度不足,这会影响ds v3.2回答一些知识性问题时的正确率,后续ds预计虽然ds用强大的技术力(后训练与推理阶段)在部分基准实现了追赶,但遇到包括高复杂度的agent任务等问题时,仍是一分耕耘一份收获。 其实是老生常谈,看现在,超级应用何处?非通缩型收费点何处?下一代模型何处?当前现金流+落后恐惧型投入达到极限,问题都存在,但越是此时越需着眼未来。 ->未来1:杰文斯悖论的持续演绎(也是说烂了的点)。一个信息-某大厂内部目标明年token日均消耗增长10倍,更不提OAI的2030目标。这方面无法说服,只有跟踪,唯有信心。 ->未来2:世界模型、完整记忆模型、自主学习模型,这都是全新范式级别的跃升,有则一些问题都没了。这也不是空穴来风,谷歌的《https://wx.zsxq.com/mweb/views/weread/search.html?…》新论文、genie3,马斯克后面的视频模型+grok5。明年值得期待的东西还有很多很多。