行业研究公司研究宏观策略财报招股书会议纪要 seedance2.0 低空经济 DeepSeek AIGC 大模型

阿里云AI十大技术进展

信息技术 2026-01-01 - 阿里巴巴 Explorer丨森

核心观点

AI 创新链重构：AI 竞争的核心正从单一模型性能转向全栈系统工程能力比拼，涵盖芯片、框架、模型、平台乃至应用。
中国 AI 产业发展：中国 AI 产业具备在核心赛道进行系统性创新并赋能实体经济发展的强大实力。
AI 普惠：通过系统性的工程整合和技术优化，将简单、经济和可靠的能力赋予千行百业，降低 AI 技术的获取与应用门槛。

关键数据和研究结论

模型架构：
- 门控注意力机制缓解长序列处理中的注意力沉没与计算效率问题，性能提升超过 27 个点。
- 线性注意力机制将注意力计算复杂度从二次方降低到线性，大幅提升长上下文处理的效率。
- 全局批次负载平衡策略释放 MoE 模型中专家的深度专业化潜力。
基础设施：
- 高精度训练模拟器让架构设计与调优告别“盲测”，模拟结果与真实训练结果的平均对齐度高达 98.1%。
- DataMan 数据管理器为预训练数据自动打上质量与领域标签，使用它筛选出的高质量数据训练模型，仅用 60% 的数据量就能达到甚至超过用全量数据训练的效果。
- Aegaeon 多模型服务系统将 GPU 资源池的整体利用率从不足 34% 提升至 48%，成功将服务集群所需 GPU 数量减少 82%。
后训练：
- 过程级价值评估让模型在处理高难度数学问题时的步进错误识别率显著提升。
- 高熵关键点优化将训练计算开销降低了数倍，并显著提升了模型在长链条推理中的逻辑连贯性与收敛速度。
- GSPO 算法有效缓解了 MoE 模型的训练稳定性问题。
- CHORD 框架实现了知识保持与能力进化的完美结合。
- SAPO 算法在多模态模型的训练中展现了极高的样本效率。
- SDPO 算法让智能体展现出了接近人类水平的社交规划能力。
推理服务：
- 测试时扩展技术提升模型推理性能，在创新02并行扩展范式下，数学推理等任务上获得 34% 的性能提升，同时将内存占用降至传统方法的 1/22。
- AsymKV 不对称量化方案可将大部分 KV 缓存以 1 比特存储，大幅降低内存占用的同时保持性能无损。
- Qwen2.5-14B-Instruct-1M 模型在处理 100 万 tokens 的超长文本时，耗时从 12.2 分钟压缩至 109 秒，提速 7 倍。
- mPLUG-DocOwl2 使文档理解任务在性能领先的同时，资源消耗降低 80%，首词响应延迟减少 50% 以上。
- TeaCache 技术在主流视频模型上实现 4.41 倍的推理加速，且画质损失微乎其微。
- ST-BoN 算法使 GPU 显存占用降低 80% 以上，推理延迟减少 50%，在相同计算成本下可将准确率提升 3-4 个百分点。
内生安全：
- 通过直接调控“神经元”，实现了对模型人格与安全机制的精准调控。
- Qwen3Guard 动态安全护栏引入“三分类”机制，实现了毫秒级的实时拦截。
- STAIR 框架赋予了模型“三思而后行”的内省推理能力。
- Mirage 攻击揭示了“注意力汇聚点”在幻觉生成中的关键作用。
- CoE 技术能够在不生成任何额外文本的情况下，通过简单的解码器实现对输出正确性的毫秒级预判。
指令遵循：
- AutoIF 机制使 Qwen2-72B 模型在指令遵循权威榜单 IFEval 上的 Loose 准确率提升。
- IOPO 优化在处理包含多重约束的复杂指令时表现出惊人的鲁棒性，在 IFEval 和 CFBench 上，模型对长难指令的执行准确率显著提高。
- SymDPO 优化方案让模型在 MME、MM-Vet 等主流多模态基准上的表现显著增强。
多模态理解：
- Qwen3-Omni 模型在 36 个音频 / 音视频基准测试中，32 项斩获开源第一、22 项登顶全球第一。
- mPLUG-Owl3 在 400 张干扰图测试中仍能保持 28.6% 的准确率，远超同类模型在 50 张干扰图时 12.5% 的水平。
- LLMDet 检测系统让检测器的整体识别准确率和稀有类别准确率分别提升 14.3% 和 17.0%。
- SymDPO 优化方案让模型在图文问答任务中的准确率提升 2.2 个百分点。
多模态生成：
- Wan 视频大模型 14B 版本实现了领先的生成质量，而 1.3B 轻量版仅需约 8GB 显存。
- ACE/ACE++ 系列框架将文生图、局部修改、风格迁移、多图参考等数十种功能无缝整合进单一模型。
- AniGS 框架从单张肖像生成可灵活驱动、实时渲染的 3D 虚拟形象，重建出标准姿态下的高保真 3D 数字人。
- OmniFlatten 模型将端到端响应延迟降至毫秒级。
- ControlSpeech 系统实现了零样本音色克隆和零样本风格控制。
- FlashAudio 在单张 GPU 上实现了 400 倍于实时的极速生成，且音质媲美传统慢速模型。
检索增强：
- ZeroSearch 框架使 7B 参数规模的模型在完全不消耗真实搜索 API 配额的情况下，即获得了媲美 GPT-4 搭配真实搜索辅助的效果。
- WebShaper 数据合成范式在 GAIA 基准测试中，其复杂问题解决能力刷新了开源 Agent 的最佳成绩。
- AirRAG 框架将蒙特卡洛树搜索（MCTS）引入 RAG 流程，实现“三思而后行”的战略决策。
- StructRAG 架构有效增强了模型对知识的操纵能力。
- VRAG-RL 框架赋予模型主动“放大、裁剪、聚焦”局部细节的能力。
- KG-SFT 范式显著增强了模型对知识的操纵能力。
- LaRA 基准测试揭示了模型基础能力、上下文长度与任务复杂度三者之间的非线性耦合关系。
智能体：
- WebShaper 数据合成范式使 7B 参数模型在动态网页信息搜寻任务上的成功率超越了未经过专门训练的 GPT-4。
- AgentEvolver 框架将任务成功率提升了近 3 倍。
- WebResearcher 能够连续进行数十轮的深度搜索与推理，产出逻辑连贯、引用详实的万字级深度报告。
- WebWatcher 提高了模型在处理图表分析、电商比价等强视觉依赖任务时的成功率。
- Mobile-Agent-v3 中的 PAPO 算法将多模态任务中的感知错误率降低了 30.5%。
- WorFBench 基准测试精准评估模型生成的有向无环图（DAG）在逻辑依赖与并行处理上的严密性。
- GenSim 平台支持十万级智能体并发运行，为计算社会科学提供了一个可控、可复现且低成本的实验环境。

总结

阿里云 AI 十大技术进展报告展示了中国 AI 产业在 AI 全链条上的创新实践，通过系统性的工程整合和技术优化，推动 AI 技术从可行性验证迈向规模化应用，并致力于实现 AI 的普惠化，赋能千行百业。

序言迈向智能时代的系统工程创新当人工智能的浪潮从实验室涌向各行各业深处，我们清晰地看到，一场深刻的创新链重构正在发生：竞争的核心，正从单一模型的性能竞赛，转向覆盖芯片、框架、模型、平台乃至应用的全栈系统工程能力比拼。这不仅是技术的演进，更是产业逻辑的重塑。阿里云发布的这份《阿里云 AI 十大技术进展》报告，系统呈现了其在 AI 全链条上的创新实践。这份报告的价值，不仅在于记录了一系列扎实的技术里程碑，更在于它提供了一个观察中国科技企业如何以系统工程思维，攻坚新一代 AI 核心能力的鲜活样本。云实质性地降低了 AI 技术的获取与应用门槛。千问系列大模型全球累计下载量突破 10 亿次、衍生模型超 20 万个，这组数据背后，是一个由全球开发者共同参与的创新生态正在茁壮成长，意味着前沿技术得以在最广泛的场景中接受检验、迭代和再创造。这不仅是商业策略，更是对技术向善、赋能百业这一价值理念的深刻践行——让算力、算法与数据成为驱动人类进步的普遍动能。展望前方，通向通用人工智能（AGI）的道路依然漫长，充满基础理论与工程实践的双重未知。然而，这份报告让我们确信，中国的人工智能产业已经具备了在核心赛道进行系统性创新、并以此赋能实体经济与社会发展的强大实力。期待以阿里云为代表的中国科技企业，能继续秉持这种系统攻坚的定力与普惠开放的初心，在探索技术前沿的同时，更致力于让技术创新扎根于中国乃至全球浩瀚的行业土壤，解决真实世界的复杂问题。当前，全球人工智能发展进入深水区，面临效率瓶颈、路径分歧、成本压力与场景落地等多重复杂挑战的交汇。破解这些难题，不仅需要单元的优化，而且需要从底层基础设施到上层应用范式的协同创新。报告所展现的从数据驱动的基础设施优化、革新模型的注意力架构，到提高可靠性的后训练技术、激发自主能力的智能体框架，勾勒出一条清晰的技术演进路径：通过系统性的工程整合，途径完善和技术优化，才能将简单、经济和可靠的能力赋予千行百业。这种系统工程思维，体现了领先企业从提供工具到构建生态、从追求峰值性能到保障规模可用性的战略视野和战术攀登，这正是推动 AI 技术从可行性验证迈向规模化应用的关键支撑。历史将再一次证明，真正伟大的技术突破，不仅闪耀于论文与榜单，更生长于推动产业升级、促进社会发展、增进人类福祉的广阔实践之中。这份报告所记载的，正是迈向这一目标的坚实足迹。尤为值得称道的是，这份报告中的系统创新始终伴随着鲜明的普惠导向与开放胸怀。通过开源顶尖模型、优化基础设施效能、降低推理服务成本，阿里 2025 年，人工智能正从技术突破走向产业变革。这一年，多模态技术走向成熟，超长上下文成为模型标配，开源与闭源模型在能力上持续竞逐，而智能体（Agent）框架的兴起，正推动 AI 从被动工具向主动协作伙伴演进。过去一年，阿里云深耕 AI 核心领域，多项研究成果发表于 NeurIPS、ACL、CVPR、ICML、SIGMOD、VLDB、SIGCOMM 等全球顶级学术会议及期刊，涵盖模型架构、基础设施、安全可控、多模态交互等关键方向。我们从这些前沿研究中梳理核心突破，凝练出 10 个具有代表性的技术方向，形成本报告，旨在分享 AI 技术创新实践，为深度使用 AI 技术提供参考。这些前沿突破，不仅是对 AI 技术边界的持续拓展，更是对智能普惠这一终极命题的系统性回应，共同勾勒出一条清晰的演进路径：让 AI 更高效、更可靠、更易用、更普惠。安全可信严守指令，打通实用关键通路架构革新能力跃升，夯实全栈突破根基模型架构作为 AI 的“大脑结构”，是所有大模型的核心基石与能力原点。通过在注意力机制、稀疏化架构等底层技术方向上的持续革新，我们不断突破模型处理长上下文、融合多模态信息的能力上限。这些架构层面的进步，为后续模型训练的效率革命、推理服务的极致优化、安全与对齐机制的精准构建、以及多模态与智能体能力的跃升，提供了坚实且先进的底层支撑，是整个技术栈协同演进的核心驱动力。从神经元级可解释的安全体系构建，到执行反馈与联合优化的指令遵循技术，我们打通了 AI 从“能用”到“好用且可信”的关键环节。内生安全技术深入模型机理构建免疫系统，从底层实现对模型人格与安全机制的精准调控，结合动态安全护栏与攻防闭环，为高风险场景应用构筑坚实的信任防线；指令遵循技术通过自我博弈、输入—输出联合偏好优化等创新，攻克复杂长指令中的约束遗忘与逻辑断层难题，赋予模型稳定可靠的执行能力。这些创新让技术创新始终行驶在安全可控的轨道上，为高风险场景应用构筑了坚实信任基石。训推提速效率倍增，筑牢 AI 普惠基石以高效经济的云化基础设施为依托，叠加后训练阶段的过程级监督与自适应优化技术，搭配测试时扩展与智能压缩的推理优化方案，我们重构了 AI 的“成本—性能”方程式。在基础设施层面，通过高精度训练模拟器、智能化数据治理与Token 级动态推理调度等全链路创新，将大模型研发与部署的资源消耗显著降低，使前沿 AI 能力的规模化普及具备了经济可行性；在后训练层面，以过程级监督替代结果级奖励，通过稀疏更新与序列级策略协同，高效将基础模型转化为具备工业级可靠性的专用能力；在推理服务方面，通过测试时扩展、差异化量化与场景化智能压缩等技术，在严控资源占用的前提下实现响应速度的倍级提升。三者协同发力，共同筑牢了 AI 普惠的技术与成本基石，让强大能力得以高效、经济地交付。全感融合智绘万物，拓展感知创造边界通过多模态统一架构与长序列处理技术的创新，我们让 AI 获得了类人的全感知能力；借助高效可控的生成技术体系，我们赋予 AI 从零创造数字内容的能力。在理解侧，从小时级长视频解析到开放词汇目标检测，从低延迟实时交互到细粒度情感感知，AI 突破了单一模态的认知局限，实现了跨模态的深度理解与协同推理。在生成侧，从文生视频、图像全能编辑到 3D 场景重建、实时语音合成，AI 掌握了全模态内容的专业级创作能力。这些突破共同构建了 AI 感知世界与创造世界的完整闭环，为数字内容产业、人机交互体验及具身智能的规模化落地，开辟了全新的技术路径与应用空间。这些突破不是孤立的技术点，而是相互支撑、层层递进的有机整体：架构革新奠定了全链路技术升级的底层基础，基础设施与推理优化提供了经济可行性，安全与指令对齐确保了可控可信，多模态能力拓展了感知与创造边界，检索增强与智能体技术则实现了从能力到应用的落地闭环。抽丝剥茧准确执行，完成工具伙伴蜕变从主动探索的模型知识系统到具备自主规划能力的智能体系，我们见证了 AI 从被动响应到主动执行的范式转变。检索增强技术的创新，使 AI摆脱静态知识束缚，通过主动搜索、动态路由与深度推理，在海量信息中精准捕获价值，为开放域问答、知识密集型任务提供可靠支撑；而智能体技术的系统性突破，让 AI 拥有自主拆解任务、环境交互与自我修正的能力，从简单指令执行者进化为能解决复杂问题的“数字劳动力”。当我们系统梳理过去一年的技术突破时，可以清晰地看到，AI 技术正在完成一次深刻的质变：从追求参数规模的竞争，转向追求效率、可靠性与普惠性的价值竞争。而这，正是通向真正的通用人工智能与智能社会的必由之路。目录模型架构 : 注意力重塑，专业度进化基础设施 : 提升算力效能，提高数据质量后训练 : 过程级监督，自适应优化推理服务 : 测试时扩展，智能压缩内生安全 : 神经元级调控，可解释可评估指令遵循 : 自我博弈，联合优化多模态理解 : 跨模态统一感知，长序列高效处理多模态生成:高质量创作，细粒度控制检索增强 : 主动探索，动态优化智能体 : 自主规划，体系创新P01P13P26P33P38P44P51P57P07P1901020304050607080910 01 模型架构：模型架构：注意力重塑，专业度进化注意力重塑，专业度进化模型架构是大语言模型处理和理解信息的“大脑结构”，其创新直接决定了模型的认知上限与应用边界。2025 年，我们实现了若干核心突破：在注意力机制方面，通过引入门控注意力机制与线性注意力优化，显著缓解了长序列处理中的注意力沉没与计算效率问题；在稀疏化架构方面，提出全局批次负载平衡策略，释放了 MoE 模型中专家的深度专业化潜力。这些基于模型底层逻辑的创新，为大模型在长文档分析、复杂任务处理和多模态交互等业务场景的深度应用奠定了坚实可靠的技术基石。行业现状与主要挑战行业现状与主要挑战架构是模型处理和理解信息的“大脑结构”，它定义了模型如何组织计算单元、处理信息流以及从数据中提炼知识。一个高效、鲁棒的架构是模型实现强大推理、生成和泛化能力的根本，直接决定了 AI 技术天花板的高度。随着大模型进入千亿乃至万亿参数时代，单纯的规模扩张已遭遇边际效益递减，全球顶尖科技公司与研究机构正将投入重点转向对“架构效率”的深层次革新，旨在用更加精巧的设计释放出更加强大的智能。当前，这些前沿探索面临着深刻而本质的科学与工程挑战： ●注意力机制受限于长序列处理瓶颈，随着文本长度增加，计算复杂度呈平方级增长，且易出现信息衰减与“注意力沉没（指模型会不自觉地、过度地将注意力资源分配给序列开头的几个词，这导致模型容易忽略后面真正关键的信息，是影响长文本理解的核心缺陷）”等问题。 ●在稀疏化架构中，如何平衡专家负载均衡与领域专精是核心难题，过度追求局部负载均匀会导致专家“全而不专”，而放任稀疏则可能引发训练不稳定与资源浪费。当前，业界在模型架构创新上的探索呈现多元化且深入的格局，主要聚焦于如下方向： ●注意力机制革新，包括长序列注意力优化（如线性注意力、稀疏注意力）、注意力效率提升（如分组注意力、头剪枝）等，核心是解决长文本处理中的信息衰减与计算冗余问题。 ●多模态架构中，不同模态的语义鸿沟与数据分布差异难以完全消除，实现模态对齐的同时往往会牺牲单模态性能。 ●稀疏化架构优化，以混合专家模型（MoE）及其变体为代表，通过“专家分工”在不显著增加计算成本的前提下扩大模型规模，同时探索动态路由、专家激活策略等优化方向。此外，在更宏观的层面，架构的可解释性与可控性仍是一个“黑箱”：我们难以精确知晓模型内部的哪些结构单元负责哪项特定的能力，这使得针对性地增强模型某一项能力变得异常困难，往往需要代价高昂的全参数微调或效果粗糙的全局干预。 ●多模态统一架构探索，追求文本、图像、音频等模态的深度对齐与协同，避免“单模态强、多模态弱”的偏科现象。我们的创新突破我们的创新突破其核心价值在于同时缓解了三大痛点：第一，有效抑制了“注意力沉没”现象。传统模型平均将 46.7% 的注意力浪费在序列开头，而门控机制通过动态稀疏性，将该比例降至 4.8%，迫使模型公平、精细地处理序列中每一个有效信息。第二，从原理上增强了模型的表达能力。注意力模块中的两层线性变换存在表达瓶颈，门控的加入打破了这一限制，让模型能够学习更复杂的特征映射。第三，提升了训练稳定性与扩展性。该机制能抑制训练中异常的数值激活，允许使用更大的学习率，使超大规模模型的训练过程更加平稳可靠。为从根源上应对上述挑战，我们在模型架构的基础原理与设计范式上取得了系列突破，有效缓解了长期存在的瓶颈，并为更精细地引导模型能力提供了新思路。创新01门控注意力机制，重构模型信息筛选逻辑注意力机制是 Transformer 架构的核心，它使模型能够动态衡量并聚焦于输入序列中的重要部分，是理解与生成的关键。然而，传统注意力在长序列中普遍存在“注意力沉没”问题——模型会过度关注序列开头，导致后续关键信息被忽略，严重制约了长文本理解能力。实验证明，采用门控注意力的模型在长上下文外推任务上性能提升超过 27 个点，且无需重新训练即可更好地处理超长文本，这为长文档分析、代码仓库级编程等场景提供了强大支撑。此项创新已成为 Qwen3-Next 等新一代旗舰模型的核心技术，助力其在保持高效部署特性的同时，实现更优异的长序列处理性能。

点击免费查看完整报告

你可能感兴趣

阿里云AI十大技术进展

核心观点

关键数据和研究结论

总结

你可能感兴趣

国内大厂AI进展点评：阿里云收入加速，AI商业化进入兑现期

阿里云-赵庆杰-Serverless 技术加速 AI 应用构建

点评报告：与阿里云合作，云计算、AI、大数据技术赋能行业应用

2025十大AI技术趋势

2026十大AI技术趋势报告-智源研究院