您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[腾讯]:AI图景解码50关键词:快思考与慢思考 - 发现报告

AI图景解码50关键词:快思考与慢思考

信息技术2025-01-08李瑞龙、曹士圯、袁晓辉、徐思彦腾讯Y***
AI智能总结
查看更多
AI图景解码50关键词:快思考与慢思考

序言 在过去一年,人工智能技术的迅猛发展正深刻重塑着社会的运行方式。从前沿动态追踪到实际应用场景,从教育辅导到科研创新,AI已然成为推动社会进步的重要力量。 在AI技术快速迭代的背景下,系统性的信息整合与分析变得尤为重要。为降低信息获取成本,提升学习效率,腾讯研究院开发了一系列专业的AI资讯产品: • AI每日速递,一份高度凝练的日报产品,帮助读者用3-5分钟快速掌握AI领域当日十大关键进展,在信息过载的时代,为学习与研究“标注”出最有价值的高质量数据; •AI每周50关键词,作为周报产品,基于AI速递内容构建。通过梳理一周热点关键词并制作可交互索引,为研究者提供便捷的“检索增强”工具,助力快速定位所需信息; •科技九宫格,一档短视频栏目,以3-5分钟视频形式解读科技热点与关键技术原理。通过可视化呈现,促进读者对前沿技术的理解与讨论,为团队内容优化提供重要“反馈”; 这些产品的运营过程,恰如大语言模型的迭代优化——持续不断地吸收新数据,萃取新知识,产生新洞见。在此基础上,团队还同步开展了AGI专题分析、AGI线上圆桌、AI&Society高端研讨会与AI&Society百人百问等系列研究探讨。 基于全年研究积累的三十余万字AI进展数据库,对当前AI发展进行阶段性总结具有重要意义。为了系统呈现AI发展的关键技术要点和趋势,该报告精选了50个年度关键词,覆盖大模型技术的八大领域:图像处理、视频生成、3D生成、编程助手、Agent、端侧智能、具身智能和基础模型;借鉴大模型的思维特征,创新性 的通过"快思考"与"慢思考"两种维度进行分析,形成了50张AI技术图景卡片。 •"快思考"维度呈现印象卡片,采用人机协同方式完成。项目团队研究人员主导提示词工程与价值判断,把握内容方向;AI系统负责执行,最终绘制输出技术定义、图示与总结语; •"慢思考"维度则深入分析技术发展的底层逻辑。重点整合研究团队在圆桌讨论和专题研究中的深度思考,借助AI辅助梳理出逻辑链条、本质洞见与趋势判断,为读者勾勒AI发展的脉络与方向。 AI技术呈现持续演进、动态发展的特征。该报告通过50个关键词构建的技术图景,旨在展现AI发展的重点领域,把握未来关键趋势,为各界提供研究与决策参考。腾讯研究院将持续深化AI&Society领域的探索,并诚挚的邀请各界好友一共关注与参与,一起迈向一个智能共生的时代。 ——腾讯研究院院长司晓 核心观察 DiT架构 A: Transformer从文本扩展至其它B: DiT架构带来图像生成质的飞跃C: Scaling Law在图像领域开始生效 结合扩散模型和Transformer的架构,用于高质量图像生成的深度学习模型。 逻辑链条 1. A→技术演进:•下一个字符→下一个像素•突破:序列建模能力迁移2. B→架构优势: •替代:U-Net → MMDiT(SD3、Flux、混元文生图)•提升:-空间关系理解-复杂提示处理-细节还原能力3. A + B→C:规模效应 •参数规模:800M→12B•涌现能力:-真实度提升-控制力增强-细节完善 本质洞见 1.图像生成正从传统扩散模型走向序列化建模2. Transformer不同模态的底层范式可以实现迁移 扩散变幻,意象成型 3.图像领域正在复制语言模型的缩放法则与能力涌现 核心观察 图像生成控制 A:图像控制从文本描述走向精确控制B:控制方式呈现多层次演进C: ControlNet实现精确干预能力 通过精确的提示词、参数和约束条件,引导AI模型生成符合预期的特定图像内容和风格。 逻辑链条 1. A→控制维度演进:• Prompt:文本描述引导 • LoRA:低成本模型微调• ControlNet:精确条件控制 2. B→技术路径分化: •描述控制:语义理解•参数控制:模型微调•条件控制:额外输入引导•工作流控制:外部编排3. C→精确控制突破: •光影:IC-Light照明控制•轮廓:Paints-Undo创作追溯•构图:Omost自动扩展 本质洞见 参数为笔,意念成像 1.控制正从"描述性"向"操作性"演进 2.多层次控制机制形成互补优势,图像生成正走向"精工制造"时代 3. AI图像生成正从粗放生成走向精确控制,这将重塑创作生产流程。 核心观察 高分辨率图像处理 A: AI图像处理已突破1K分辨率门槛B:高分辨率对图像生成具有重要商业价值C:高分辨率对图像理解同样关键D:高分辨率处理仍存在多重技术限制 对大尺寸、高精度图像进行分析、增强和变换,以提取信息、改善质量或适应特定应用需求。 逻辑链条 1. A ∧ B →产业应用扩展生成模型支持1024×1024原生分辨率→艺术创作/广告/游戏开发等应用提升2. A ∧ C →专业领域突破 医学影像分辨率需求[256-1024] ∧模型达到1K处理能力→专业应用可行 3. D →技术演进方向∀(高分辨率处理) → ∃(架构创新∨性能优化)例: Pixtral 12B, Eagle系列针对分辨率优化 本质洞见 1. 1K分辨率是AI图像处理由通用向专业化过渡的分水岭2. AI图像价值实现需要技术与产业的双向驱动,专业需求∧技术突破→应用深化 细微入毫,尺显真容 核心观察 AI图像商业化 A:生成式AI具有强大的技术能力和流量吸引力B:技术能力需要转化为有效商业闭环C: AI企业被迫进行商业模式转型D:产业整合成为主要出路 将人工智能图像生成技术转化为可持续的商业服务,实现技术价值与市场需求的良性循环。 逻辑链条 1.A ∧¬B→C为什么要转型?技术能力≠商业价值流量优势≠变现能力(技术优势∧商业化失败)⇒寻求转型2. C→D案例佐证: - Stability AI:技术困境→视效领域融合- Leonardo.ai:独立运营→平台整合 3. ∀(成功转型案例)→∃(产业链整合∨场景深耕)-原生技术→工具产品→产业解决方案 本质洞见 1.想要跨越鸿沟,要么融入既有产业链,要么能够成功对接具体应用需求 智造赋能,价值衍生 2. AI图像生成企业将"技术驱动"向"场景驱动"转变,通过产业整合获得商业生态位 核心观察 医疗AI A:图像理解在医疗领域率先实现商业化B:科技巨头深耕医疗AI研发C:学术界取得突破性进展D:行业权威对医疗AI持积极态度 运用人工智能分析医学影像、临床数据,协助医生诊断决策,实现精准治疗增强。 逻辑链条 1. A→产业成熟度与应用价值图像理解>图像生成专业应用>通用应用2. B ∧ C→技术进步 企业投入: - Med-Gemini系列(2D/3D/基因组)学术突破: - Mirai(预测诊断) - SAT(3D分割)技术突破→临床验证→商业应用∀(成功医疗AI)→∃(专业性∧实用性∧可靠性)3. D→发展趋势 领域专家认可(Hinton、吴恩达等)⇒技术路线可靠性 本质洞见 1.多模态识别能力提升,让AI在专业领域理解、分析应用成为可能 慧眼穿透,微显著知 2.医疗AI的成功得益于其深度对接专业场景,以解决实际临床需求为导向的发展路径 核心观察 规模化训练 A:视频生成相比图像生成难度提升百倍B:视频生成技术发展出自回归与扩散两大路线C: Sora引领DiT架构成为主流方向D:规模化训练是实现高质量视频生成的关键 通过扩大模型参数、数据规模和算力投入,在量变中实现质变的训练范式。 逻辑链条 1.问题难度跃升(A) 视频生成/图像生成≈百倍复杂度:大量连续帧、时序连贯性、主体一致性 2.技术路线探索(B)自回归Transformer方案or扩散模型→规模化训练3.技术突破与统一(B→C→D) •引入时空块编码创新 •通过规模化训练实现性能突破 本质洞见 1.视频生成的技术演进呈现"分散探索→路径统一"的特征2.规模化训练是解决复杂生成任务的通用范式 以量取胜,跃迁超萃 3.架构创新(DiT)+训练范式(规模化)的组合是突破性进展的关键 核心观察 下一帧预测 A:视频生成模型的核心在于时序特征处理B: DiT架构通过扩散过程处理时序关系C:自回归方案将视频离散为可预测的token序列D:下一帧预测是视频连续性的关键保证 基于已知视频帧序列的时空特征,推演预测未来瞬间的画面内容。 逻辑链条 1.技术路线分化(A) 扩散模型:噪声迭代→帧序列生成自回归Transformer模型:token预测→帧序列构建2.实现机制对比(B ∧ C) DiT方案:整体扩散过程、时空特征同步建模自回归Transformer方案:视频token化、序列化预测3.预测能力(D) 连续性保证:时序特征学习+运动规律理解+状态迁移预测 本质洞见 1.下一帧预测是视频生成的核心任务,但不同技术路线有不同实现方式 窥今以知来,推果溯因 2.自回归预测通过将视频离散化,把复杂的时序预测转化为token预测问题3.预测范式的选择直接影响模型的生成能力与效率权衡 核心观察 艺术家共创 A:模型厂商通过工具+社区培育创作生态B:厂商频繁举办各类创作比赛扩大影响C:与艺术家合作已成为行业标配D:艺术家参与可反哺模型训练形成数据飞轮 人类艺术家与AI模型通过交互式创作,在视频生成过程中实现创意的双向激发与融合。 逻辑链条 1.生态构建路径(A ∧ B)•打造工具产品→运营社区 •举办比赛活动→扩大影响 2.艺术家价值链(C→D) •前端:优质作品展示•中端:专业反馈收集•后端:训练数据优化 3.闭环形成(A ∧ B ∧ C→D) 工具应用→社区运营→艺术家合作→数据反馈→模型优化 本质洞见 1. AI视频生态正在从"工具提供"向"价值共创"演进2.艺术家在生态中扮演双重角色:既是内容生产者,也是 模型优化的关键贡献者3.数据飞轮成为商业闭环的核心驱动力,将持续提升AI创 天人合一,机艺双馨 作的质量边界 核心观察 AI原生创作 A:视频生成模型的交互逻辑比文本模型更复杂B:模型能力支持多样化输入(文本、图片、视频)C:配套工具提供细粒度控制选项D: AI原生创作工具正在向全流程方向演进 以AI视频生成模型为核心重构视频创作的思维范式与工作流 逻辑链条 1.交互使用难度差异(A):文本模型(简单)→视频模型(复杂) 2.能力扩展(A→B)文生视频→图生视频→首尾帧控制→视频生视频3.控制增强(B→C)精细化控制=运镜控制+运动笔刷+主体选定+ ...4.范式升级(C→D)传统创作工具→AI原生创作平台(多工具集成+工作流适配+专业功能对标) 本质洞见 1.视频生成模型的应用正在从"单一生成"向"创作生态"演进 智成影像,创意无界 2.成功的AI创作工具需要在保持AI能力优势的同时,兼顾传统创作习惯 3.降低使用门槛与提供专业控制是视频生成模型应用的双重任务 核心观察 生成式游戏 A:视频生成模型正向游戏世界模拟方向发展B:多个研究团队在游戏生成领域取得突破C:游戏引擎本质是一种受限的世界模型D:从游戏模拟到现实世界模拟存在复杂度跨越 通过AI生成技术动态创造游戏内容,实现无限可能的交互叙事与世界构建。 逻辑链条 1.技术演进路径(A→B)• Oasis:Minecraft式开放世界生成 • Genie-2:通用可交互游戏生成基础模型 2.概念拓展(B→C)游戏引擎⇔受限世界模型特征:有限世界尺寸、封闭规则系统、可预测状态转移3.仍待探索(C→D) 现实世界=复杂度指数级增长+数据收集成本激增+状态空间爆炸 本质洞见 1.游戏生成是通向世界模拟的"缩微实验场",提供了可控的技术验证环境 无限想象,生生不息 2.从游戏到现实的跨越不仅是量的积累,更需要在模型架构和学习范式上的质变 核心观察 世界模拟器 A:多实验室主张视频生成模型是实现世界模拟器的可行路线B:当前视频生成模型存在成本高、