您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。 [腾讯]:腾讯大模型发展与应用分享 - 发现报告

腾讯大模型发展与应用分享

2025-05-07 腾讯 叶剑锋
报告封面

目录 一、混元大模型整体能力概述二、混元大模型的实践与应用三、混元大模型生态及社会价值探索 一、混元大模型能力概述 混元围绕需求持续迭代,实现了能力全面突破、应用广泛落地 全链路自研--惊艳的模型效果,离不开底层算法和平台的支持 构建自主可控的国产大模型全栈技术 低端卡+自研高速网络互联 2024年将达到单集群10万卡规模低端卡也能训练万亿参数大模型 自研AI框架高效利用低端卡 针对低端卡算力低、显存小的不足自研训练/推理框架,高效利用数万张低端卡 研发MoE大模型基础结构 单模型升级为MoE混合专家模型统一的文本和多模态大模型结构 突破一:自研硬件、路由算法,构建星脉高速网络 大规模算力需要高速互联互通,InfiniBand网络设备价格昂贵,是自研的3倍以上,且有被禁风险 突破二:自研Angel大模型训练和推理平台,高效调度异构卡集群 针对低端卡算力低、显存小的不足,自研训练/推理框架,高效利用万张低端卡集群 混元大模型的能力建设 混元的感知能力——混元多模态理解模型 图表分析 分析推理 基础理解 视觉编码:目前支持单图、最大7K分辨率 •支持多图&视频生文:一个模型处理文本、单图、多图、短视频和长视频生文任务•支持更大分辨率 Q:这种情况下我可以步行吗? Q:这是什么商品 LLM语言模型:目前MoE架构 •LLM基座支持更大参数量、更先进架构•更高的推理效率、更低成本 A:在这种情况下,人行横道信号显示行人过街信号为绿色时,可以安全过街。根据信号灯,行人可以继续前进,继续进行日常活动或前往下一个目的地。重要的是要注意,即使此时绿灯亮着,在人行横道上行走也必须保持谨慎,因为行人和机动车驾驶员都必须遵守交通规则。 A:这件格子外套,既是一件保暖的夹克,又是一件时尚的衬衫。它由蓝色、棕色和白色制成,拥有格子图案和连帽设计。它的剪裁流畅而舒适,适合各种场合穿着。在白色的背景上,这件外套显得格外醒目,让人不禁想要拥有它。 Adapter:目前自适应分辨率 •更大规模图文对、视频对•更丰富的长宽比、任意分辨率 混元的思考能力——混元文生文模型 混元Turbo的核心能力 ①【长窗口】无损256K~百万级长窗口输入;②【长文理解&记忆】上下文理解和长文记忆,流畅支持多轮对话;③【意图识别】准确识别用户意图、进行理解、分析的逻辑推理能力,内嵌安全识别能力,更精准判断是否存在潜在安全风险④【知识增强】有效增强事实性、时效性、无害性、提升内容生成效果;⑤【文本创作】支持文学创作、文本摘要的内容创作;⑥【AI搜索】整合腾讯优质内容生态(如微信公众号、视频号等)和全网搜索能力⑦【多尺寸】提供多种尺寸Dense和MoE模型,覆盖不同场景。 •训练效率提升108%,推理效率提升100%,推理成本降低50%,解码速度提升20%•除支持通用大模型能力外,也支持角色扮演、FunctionCall、代码生成和AI联网搜索等领域能力 混元的创造能力——混元文生图模型 图生图模型 文生图模型 ①Dit架构,具备Scaleup能力;②双向注意力Refiner,文本理解更全局;③Scaling Laws,计算资源利用更高效;④16通道编码隐空间,细节编码能力强; ①混合多粒度特征提取,提升细节和相似度。 ②自适应特征投影、融合不同粒度的特征,适配模型。 混元的创造能力——混元文生视频模型全面升级 写实画质 动态流畅 ①超大规模数据处理系统;②适配MLLM为文本编码器,强大的语意遵从能力,安全意图识别更精准③基于自研ScalingLaw的全注意力DIT——更大参数、更高性能;④自研3D VAE,更强大的图像视频重建能力⑤基于多模态理解的视频安全大模型,融合视频与标签进行安全对齐 语义遵从 原生转场 混元的创造能力——混元文生视频模型全面升级 混元的创造能力——混元文生3D模型 混元3D功能矩阵 混元3D大模型 •几何与纹理解耦,兼容3D设计师建模流程 •已建设AI 3D功能18项,完备性高 •全覆盖3D制作管线,让3D制作AI化,低门槛、一站式 •速度跨进30s内,生成质量位于业界第一梯队 •自研3D-DiT几何大模型,业界最早之一,白模生成精细 混元的创造能力——混元文生3D模型 混元3D创作引擎生成效果 能力全面突破:各模态模型稳居第一梯队 大语言模型 多模态理解 腾讯混元Turbo在理科、文科均居于第一名 国内大模型排名第一稳居卓越领导者象限 3D生成 多模态生成 混元3D模型生成素材,高效搭建小游戏 以太坊创始人称赞混元视频生成模型 提前布局,率先发布已应用于游戏管线 千题盲测国内领先特定场景表现更优 混元大模型全面拥抱开源 通过技术共建、赋能行业、人才培训等方式全面拥抱开源、深度改变行业生态! 24年11月5日 24年12月3日 24年5月12日 24年11月5日 业界参数规模最大的开源MoE大语言模型拥有3890亿总参数和520亿激活参数,能够处理高达256k的文本序列 业界首个中文原生DiT架构文生图大模型DiT的通用性、扩展性强,是最广泛使用的文生图基座 二、混元大模型实践与应用 腾讯混元已接入700+业务场景,用大模型助力产业创新 AI广告:助力腾讯广告多场景提效,带来广告转化率的显著提升 支持文生图、图生图和商品生图等能力,服务妙思工作台和妙思衍生,秒级出图立等即可投放,提升创意生成效率并且可延续爆量素材 AI工具:代码场景 IDE编程场景:工蜂Copilot 小程序编程场景:小程序教育版AI助手 代码补全5大语言生成率35%,采纳率27% 小程序教育版上线AI编程助手,面向师生推广小程序开发教育,累计650+所试用学校,~200所已认证学校 代码补全:基于注释和代码的上下文智能补全代码代码Chat:支持自然语言提问和生成代码内容 AI生成代码+实时预览的交互形式,适合面向教育场景 AI客服:体验效率双升级 智能客服体验升级 客服助手 支持客服多轮对话,相关能力也通过腾讯云对外输出,率先落地场景,总量已切换52.97%已接业务喊人工率从27.3%降至20.2% 值得信赖的帮手,为人工客服提供推荐话术、历史工单摘要等支持AI话术采纳率90% AI阅读:深度阅读能力持续升级,使得创新阅读体验成为可能 QQ浏览器 AI精读:提升学习深度广度 AI写作:支持复杂场景、复杂指令的专业写作 腾讯文档智能助手 搜狗输入法AI帮写 浏览器AI作文辅导 •覆盖30+任务:PPT、思维导图、待办清单等,支持时新类和知识类的搜索增强写作 •AI帮写覆盖21个写作场景,覆盖130多种使用场景 •写作辅导:审题立意、写作大纲•范文生成:覆盖小/初/高学段 AI智能体:腾讯视频IP角色对话,打造影视剧交互新玩法 •元宝AI角色支持《长相思2》等剧集的角色对话功能,成为腾讯视频剧集宣发新亮点,其中长相思AI角色对话总热度近2亿,“相柳”单角色热度1.2亿 •合作获新华社、21财经等主流媒体高度评价和官方权威报道 AI智能体:混元一站式角色扮演管线已支持司内多个业务 腾讯QQ-智能体 IEG游戏业务 •支持《三角洲行动》,《英雄联盟》,《元梦之星》等业务 •以PGC和PUGC为核心,打造沉浸拟人的陪伴式智能体平台•提供智能体对话、空间互动、UGC智能体、安全能力接入等 AI搜索:大模型加持问答体验,还可满足模糊搜索、复杂推理等需求 腾讯视频 浏览器搜索 搜索结果合格率85%+ •需求:解决模糊的、口语化、场景化的用户找片需求,如“老莫我想吃鱼了是什么剧” •需求:用大模型来提高问答类query的回答效果和覆盖率 微信搜一搜 微信输入法-问AI 元宝AI搜索调用量百万级 •需求:用大模型来提升复杂问题、代码、数学、创作等生成类query的AI问答效果 •需求:用户输入query后即可通过AI搜索/大模型获取答案 MAU渗透率 三、混元大模型生态及社会价值探索 混元大模型的外部生态建设 腾讯联合产学研界助力国家人工智能发展和重大产业应用 ✓腾讯与中国信息通信技术研究院(CAICT)的合作已经在人工智能领域取得了实质性的共同成果,混元模型在“模型开发”和“模型能力”两项评估中获得了最高分,这是业界最权威的可信人工智能评估框架。 ✓腾讯混元大模型背后技术斩获中国电子学会科技进步一等奖,解决超大模型训练推理难题,产学研界通力合作推进国家人工智能发展和重大产业应用 ✓联合发布《行业大模型标准体系及能力架构研究报告》《大模型安全与伦理研究报告2024》以负责任AI引领大模型创新。 ✓积极参与人工智能产业联盟(AIIA)和中国通信标准协会(CCSA),领导制定了《数字人基础可信能力要求》等10+项人工智能标准,涵盖了人工智能多个领域,特别是针对行业和领域特定功能的AIGC标准。 ✓腾讯混元大模型首批通过《生成式人工智能服务管理暂行办法》网信备案并率先通过国家大模型的系列标准测试。 混元在SSV探元计划应用 混元在SSV青少年心理健康应用 媒体深入应用:混元自动生成多类型传媒内容 媒体深入应用:混元文生视频的媒体应用