序 在过去一年,人工智能技术的迅猛发展正深刻重塑着社会的运行方式。从前沿动态追踪到实际应用场景, 从教育辅导到科研创新,AI已然成为推动社会进步的重要力量。 言 在AI技术快速迭代的背景下,系统性的信息整合与分析变得尤为重要。为降低信息获取成本,提升学习效率,腾讯研究院开发了一系列专业的AI资讯产品: •AI每日速递,一份高度凝练的日报产品,帮助读者用3-5分钟快速掌握AI领域当日十大关键进展,在信息过载的时代,为学习与研究“标注”出最有价值的高质量数据; •AI每周50关键词,作为周报产品,基于AI速递内容构建。通过梳理一周热点关键词并制作可交互索引,为研究者提供便捷的“检索增强”工具,助力快速定位所需信息; •科技九宫格,一档短视频栏目,以3-5分钟视频形式解读科技热点与关键技术原理。通过可视化呈现,促进读者对前沿技术的理解与讨论,为团队内容优化提供重要“反馈”; 这些产品的运营过程,恰如大语言模型的迭代优化——持续不断地吸收新数据,萃取新知识,产生新洞见。在此基础上,团队还同步开展了AGI专题分析、AGI线上圆桌、AI&Society高端研讨会与AI&Society百人百问等系列研究探讨。 基于全年研究积累的三十余万字AI进展数据库,对当前AI发展进行阶段性总结具有重要意义。为了系统呈现AI发展的关键技术要点和趋势,该报告精选了50个年度关键词,覆盖大模型技术的八大领域:图像处理、视频生成、3D生成、编程助手、Agent、端侧智能、具身智能和基础模型;借鉴大模型的思维特征,创新性 1 的通过"快思考"与"慢思考"两种维度进行分析,形成了50张AI技术图景卡片。 •"快思考"维度呈现印象卡片,采用人机协同方式完成。项目团队研究人员主导提示词工程与价值判断,把握内容方向;AI系统负责执行,最终绘制输出技术定义、图示与总结语; •"慢思考"维度则深入分析技术发展的底层逻辑。重点整合研究团队在圆桌讨论和专题研究中的深度思考,借助AI辅助梳理出逻辑链条、本质洞见与趋势判断,为读者勾勒AI发展的脉络与方向。 AI技术呈现持续演进、动态发展的特征。该报告通过50个关键词构建的技术图景,旨在展现AI发展的重点领域,把握未来关键趋势,为各界提供研究与决策参考。腾讯研究院将持续深化AI&Society领域的探索,并诚挚的邀请各界好友一共关注与参与,一起迈向一个智能共生的时代。 ——腾讯研究院院长司晓 2 3 DiT架构 结合扩散模型和Transformer的架构, 用于高质量图像生成的深度学习模型。 扩散变幻,意象成型 核心观察 A:Transformer从文本扩展至其它B:DiT架构带来图像生成质的飞跃C:ScalingLaw在图像领域开始生效 逻辑链条 1.A→技术演进: •下一个字符→下一个像素 •突破:序列建模能力迁移 2.B→架构优势: •替代:U-Net→MMDiT(SD3、Flux、混元文生图) •提升:-空间关系理解-复杂提示处理-细节还原能力 3.A+B→C:规模效应 •参数规模:800M→12B •涌现能力:-真实度提升-控制力增强-细节完善 本质洞见 1.图像生成正从传统扩散模型走向序列化建模 2.Transformer不同模态的底层范式可以实现迁移 3.图像领域正在复制语言模型的缩放法则与能力涌现 4 图像生成控制 通过精确的提示词、参数和约束条件,引导AI模型生成符合预期的特定图像 内容和风格。 参数为笔,意念成像 核心观察 A:图像控制从文本描述走向精确控制B:控制方式呈现多层次演进 C:ControlNet实现精确干预能力 逻辑链条 1.A→控制维度演进: •Prompt:文本描述引导 •LoRA:低成本模型微调 •ControlNet:精确条件控制 2.B→技术路径分化: •描述控制:语义理解 •参数控制:模型微调 •条件控制:额外输入引导 •工作流控制:外部编排 3.C→精确控制突破: •光影:IC-Light照明控制 •轮廓:Paints-Undo创作追溯 •构图:Omost自动扩展 本质洞见 1.控制正从"描述性"向"操作性"演进 2.多层次控制机制形成互补优势,图像生成正走向"精工制造"时代 3.AI图像生成正从粗放生成走向精确控制,这将重塑创作生产流程。 5 高分辨率图像处理 对大尺寸、高精度图像进行分析、增强和变换,以提取信息、改善质量或适应特定 应用需求。 细微入毫,尺显真容 核心观察 A:AI图像处理已突破1K分辨率门槛 B:高分辨率对图像生成具有重要商业价值C:高分辨率对图像理解同样关键 D:高分辨率处理仍存在多重技术限制 逻辑链条 1.A∧B→产业应用扩展 生成模型支持1024×1024原生分辨率 →艺术创作/广告/游戏开发等应用提升 2.A∧C→专业领域突破 医学影像分辨率需求[256-1024]∧模型达到1K处理能力 →专业应用可行 3.D→技术演进方向 ∀(高分辨率处理)→∃(架构创新∨性能优化)例:Pixtral12B,Eagle系列针对分辨率优化 本质洞见 1.1K分辨率是AI图像处理由通用向专业化过渡的分水岭 2.AI图像价值实现需要技术与产业的双向驱动,专业需求 ∧技术突破→应用深化 6 AI图像商业化 将人工智能图像生成技术转化为可持续的商业服务,实现技术价值与市场需求的良 性循环。 智造赋能,价值衍生 核心观察 A:生成式AI具有强大的技术能力和流量吸引力B:技术能力需要转化为有效商业闭环 C:AI企业被迫进行商业模式转型D:产业整合成为主要出路 逻辑链条 1.A∧¬B→C为什么要转型?技术能力≠商业价值 流量优势≠变现能力 (技术优势∧商业化失败)⇒寻求转型 2.C→D案例佐证: -StabilityAI:技术困境→视效领域融合 -Leonardo.ai:独立运营→平台整合 3.∀(成功转型案例)→∃(产业链整合∨场景深耕) -原生技术→工具产品→产业解决方案 本质洞见 1.想要跨越鸿沟,要么融入既有产业链,要么能够成功对接具体应用需求 2.AI图像生成企业将"技术驱动"向"场景驱动"转变,通过产业整合获得商业生态位 7 医疗AI 运用人工智能分析医学影像、临床数据, 协助医生诊断决策,实现精准治疗增强。 慧眼穿透,微显著知 核心观察 A:图像理解在医疗领域率先实现商业化B:科技巨头深耕医疗AI研发 C:学术界取得突破性进展 D:行业权威对医疗AI持积极态度 逻辑链条 1.A→产业成熟度与应用价值 图像理解>图像生成专业应用>通用应用 2.B∧C→技术进步 企业投入:-Med-Gemini系列(2D/3D/基因组)学术突破:-Mirai(预测诊断)-SAT(3D分割)技术突破→临床验证→商业应用 ∀(成功医疗AI)→∃(专业性∧实用性∧可靠性) 3.D→发展趋势 领域专家认可(Hinton、吴恩达等)⇒技术路线可靠性 本质洞见 1.多模态识别能力提升,让AI在专业领域理解、分析应用成为可能 2.医疗AI的成功得益于其深度对接专业场景,以解决实际临床需求为导向的发展路径 8 9 本报告来源于三个皮匠报告站(www.sgpjbg.com),由用户Id:262617下载,文档Id:188180,下载日期:2025-01-07 规模化训练 通过扩大模型参数、数据规模和算力投入, 在量变中实现质变的训练范式。 以量取胜,跃迁超萃 核心观察 A:视频生成相比图像生成难度提升百倍 B:视频生成技术发展出自回归与扩散两大路线C:Sora引领DiT架构成为主流方向 D:规模化训练是实现高质量视频生成的关键 逻辑链条 1.问题难度跃升(A) 视频生成/图像生成≈百倍复杂度:大量连续帧、时序连贯性、主体一致性 2.技术路线探索(B) 自回归Transformer方案or扩散模型→规模化训练 3.技术突破与统一(B→C→D)DiT架构整合: •融合Transformer与扩散模型优势 •引入时空块编码创新 •通过规模化训练实现性能突破 本质洞见 1.视频生成的技术演进呈现"分散探索→路径统一"的特征 2.规模化训练是解决复杂生成任务的通用范式 3.架构创新(DiT)+训练范式(规模化)的组合是突破性进展的关键 10 下一帧预测 基于已知视频帧序列的时空特征,推演预测 未来瞬间的画面内容。 窥今以知来,推果溯因 核心观察 A:视频生成模型的核心在于时序特征处理B:DiT架构通过扩散过程处理时序关系 C:自回归方案将视频离散为可预测的token序列D:下一帧预测是视频连续性的关键保证 逻辑链条 1.技术路线分化(A) 扩散模型:噪声迭代→帧序列生成 自回归Transformer模型:token预测→帧序列构建 2.实现机制对比(B∧C) DiT方案:整体扩散过程、时空特征同步建模 自回归Transformer方案:视频token化、序列化预测 3.预测能力(D) 连续性保证:时序特征学习+运动规律理解+状态迁移预测 本质洞见 1.下一帧预测是视频生成的核心任务,但不同技术路线有不同实现方式 2.自回归预测通过将视频离散化,把复杂的时序预测转化为token预测问题 3.预测范式的选择直接影响模型的生成能力与效率权衡 11 艺术家共创 人类艺术家与AI模型通过交互式创作,在视 频生成过程中实现创意的双向激发与融合。 天人合一,机艺双馨 核心观察 A:模型厂商通过工具+社区培育创作生态B:厂商频繁举办各类创作比赛扩大影响C:与艺术家合作已成为行业标配 D:艺术家参与可反哺模型训练形成数据飞轮 逻辑链条 1.生态构建路径(A∧B) •打造工具产品→运营社区 •举办比赛活动→扩大影响 2.艺术家价值链(C→D) •前端:优质作品展示 •中端:专业反馈收集 •后端:训练数据优化 3.闭环形成(A∧B∧C→D) 工具应用→社区运营→艺术家合作→数据反馈→模型优化 本质洞见 1.AI视频生态正在从"工具提供"向"价值共创"演进 2.艺术家在生态中扮演双重角色:既是内容生产者,也是模型优化的关键贡献者 3.数据飞轮成为商业闭环的核心驱动力,将持续提升AI创作的质量边界 12 AI原生创作 以AI视频生成模型为核心 重构视频创作的思维范式与工作流 智成影像,创意无界 核心观察 A:视频生成模型的交互逻辑比文本模型更复杂 B:模型能力支持多样化输入(文本、图片、视频)C:配套工具提供细粒度控制选项 D:AI原生创作工具正在向全流程方向演进 逻辑链条 1.交互使用难度差异(A):文本模型(简单)→视频模型(复杂) 2.能力扩展(A→B) 文生视频→图生视频→首尾帧控制→视频生视频 3.控制增强(B→C) 精细化控制=运镜控制+运动笔刷+主体选定+... 4.范式升级(C→D) 传统创作工具→AI原生创作平台(多工具集成+工作流适配+专业功能对标) 本质洞见 1.视频生成模型的应用正在从"单一生成"向"创作生态"演进 2.成功的AI创作工具需要在保持AI能力优势的同时,兼顾传统创作习惯 3.降低使用门槛与提供专业控制是视频生成模型应用的双重任务 13 生成式游戏 通过AI生成技术动态创造游戏内容, 实现无限可能的交互叙事与世界构建。 无限想象,生生不息 核心观察 A:视频生成模型正向游戏世界模拟方向发展B:多个研究团队在游戏生成领域取得突破C:游戏引擎本质是一种受限的世界模型 D:从游戏模拟到现实世界模拟存在复杂度跨越 逻辑链条 1.技术演进路径(A→B) •Oasis:Minecraft式开放世界生成 •Genie-2:通用可交互游戏生成基础模型 2.概念拓展(B→C) 游戏引擎⇔受限世界模型 特征:有限世界尺寸、封闭规则系统、可预测状态转移 3.仍待探索(C→D) 现实世界=复杂度指数级增长+数据收集成本激增+状态空间爆炸 本质洞见 1.游戏生成是通向世界模拟的"缩微实验场",提供了可控的技术验证环境 2.从游戏到现实的跨越不仅是量的积累,更需要在模型架构和学习范式上的质变 14 世界模拟器