您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。 [腾讯]:多元模型企业级精调推理构建高质量AI基座 - 发现报告

多元模型企业级精调推理构建高质量AI基座

2025-06-18 腾讯 yuannauy
报告封面

多元模型企业级精调推理构建高质量AI基座 程雪璨丨腾讯云智能解决方案专家 腾讯混元向智能的深度和广度持续演进 多模态模型 物理世界理解和仿真 新发布 视觉理解 新发布 图像2.0 新发布 3D生成 新发布 语音端到端 新发布 游戏视觉 预告 3D场景 混元大语言模型 理解认知空间 新升级 混元T1 深度思考模型 混元TurboS快思考模型 新升级 深度 探索智能的边界 广度 拓宽与物理世界的交互方式 新升级 创新混合MambaMoE架构:混元旗舰快思考模型TurboS ChatbotArena综合排名 全球#8 理科能力 全球Top10 理科推理 提升超10% 代码能力 提升24% 竞赛数学 提升39% *相比前代版本 100 90 80 70 60 50 40 30 20 10 0 MMLU-proGPQA_diamond DROP LiveCodeBenchAIME2024 LiveBench ArenaHard Hunyuan-TurboS(首发版) Hunyuan-TurboS(最新版) GPT4o-0806 Claude-3.5-Sonnet 100 80 60 40 20 0 MMLUPRODROPF1AIME2024LiveCodeBenchC-SimpleQAT-EvalCEvalHunyuan-T1(首发版)Hunyuan-T1(最新版)GPT4.5o1 竞赛数学8%↑知识问答8%↑智能体能力13%↑ *相比前代版本 奖励系统的全面升级 扩充执行沙盒的覆盖 多阶段 效果好速度快 擅长超长推理 强化学习训练 新升级 持续快速迭代:混元自研深度思考模型T1 复杂指令跟随准确 解码速度提升2倍 文风简洁 新发布 混元视觉深度推理和端到端语音通话模型解锁全新交互体验 视觉深度推理模型混元T1Vision 多模态深度思考原生长思维链 视觉深度理解提升5.3% 响应时间更快速度提升50% 端到端语音通话模型混元Voice 端到端延迟1.6s 提速30%↑ 拟人性27%↑ 情绪应用25%↑ 出图速度 快约15倍 业界平均 混元ImageV2.0 1024x1024分辨率生成时间(s) 全新技术架构 •超高压缩率编解码器 •对抗蒸馏加速 新发布 混元ImageV2.0:首个毫秒级商用级生图模型 语音输入实时出图 字符级响应生成 混元3DV2.5 混元3D白模细节质量 端到端评测指标大幅领先 文生3D 15/17类目第一 图生3D 17/17类目第一 全新3D生成模型质感大幅提升 混元3D-V2.0 混元3D-V2.5 3D建模空间体积 5600万 10亿 几何白模面数 4万 50万 纹理贴图分辨率 2k 4k 新发布 混元3DV2.5实现可控、超高清生成能力 HuggingFace模型下载量超160万 友商A模型友商B模型混元3D-2.5 新发布 混元游戏模型:工业级游戏资产生成 游戏资产生成系列模型 ✧游戏角色动态立绘 ✧实时交互游戏世界模型 首个一站式AIGC 游戏内容生产引擎 ✧专业AI美术管线 全系列模型开源 Hunyuan-DiT图像 Hunyuan-Large文本 开源企业级混合推理模型 •面向AI工作站(7B-14B) •面向AI服务器(MoE80-A13B、32B) 开源端侧混合推理模型 面向端侧(0.5B-4B)等各种边缘计算场景 Hunyuan-Video视频 Hunyuan-3D 多模态基础模型(HunyuanImageVideo3D等)以及配套插件模型将持续开源 腾讯混元大模型全系持续开源 模型很强大,为什么还要精调 过度推理场景 指令遵循场景 推理效率场景 具备一定算法知识和开发能力的AI工程师 以更高效率精调并部署可真正落地的大模型 高效灵活的数据准备 稳定可控的训练调度 实用工具链 方式齐全的模型评测 易用可靠的的模型部署 可灵活扩展的多模态数据标注 可自定义的任务调度策略 可即时发起的模型效果检验可自动弹缩的分布式部署 4大类场景全面支持3层机制保障减少中断 3阶段评测全面覆盖 稳定支持高并发 强大内核 模型框架算力 腾讯云TI平台TI-ONE:面向实战的大模型开发平台 内置主流开源大模型 混元+DeepSeek模型精调部署 内置自研Angel推理加速框架业内第一梯队的大模型加速效果 X86+ARM异构算力纳管 极致满足多厂商AI芯片管理和调度 企业级训练工具 精调训练–面向实战 全开源可扩展的数据构建pipeline 数据准备 自适应可配置的多模态标注 灵活可配的任务调度策略 模型训练 故障主动恢复的长时任务保障 100+场景的精调配比数据 边训边测的3阶段模型效果评测 TI平台升级精调工具链,支持训推一体潮汐调度 全面升级训练能力 蒸馏精调 强化学习 自驾模型训练 BEVFormer 自驾模型训练 教师模型学生模型强化学习 FastBEV 自驾模型训练 原生支持强化学习 快速启动 自驾 训练框架 Ray分布式 计算框架 支持训推一体潮汐调度 训推潮汐调度 灵活排队策略 排队策略可配置,满足企业个性化调度需求 严格先进先出 灵活开启抢占 资源最大化利用 在线推理闲时算力用于离线训练 服务弹性伸缩 统一优先级配置 某头部消费电子企业 基于TI平台集约管理算力,研发大模型和传统CV模型,应用在电视产品文案生成、视频分析等场景 A研发提效 50%以上 覆盖大模型和传统CV场景充分使用精调工具链,无需 配置繁琐开发环境 资源利用率提升 80%以上 集约算力管理,高效任务调度充分运用GPU虚拟化技术和 分布式计算能力 TI平台加速能力全面升级,推理加速效果领先 某头部新能源汽车制造商 基于TI平台统一纳管云上GPU资源,部署专属 DeepSeek模型,应用在知识问答等多领域 PD分离 DP+EP 并行化 DeepEP 计算与通信融合手段 Angel加速套件全面升级 架构延展 双引擎支持 精度几乎无损前提下,提升吞吐能力 部分能力已贡献至开源社区 推理加速效果业界领先 典型场景QPM行业领先 在首Token延时<2s、吐字速率>=20Tokens/s前提下,QPM达到100+ 降低服务时延 MTPEP多专家 并行解码并行 int4量化 Kernel 优化 算子优化 深挖内核 SGLangvLLM 支撑企业多业务场景 知识问答 营销 座舱语音助手 使用TI平台Angel加速后 DeepSeek推理性能显著提升资源成本显著降低 场景实践1–AI搜索与角色扮演 AI搜索 问题:AI搜索场景在表格检索、数据库检索效果不佳,答案准确率期望进一步提升 方案:集成R1优化阅读理解能力,同时使用DeepSeekcoder训练Text2SQL模型 效果: 提供中间思考过程,提升答案准确率5%以上,并且支持长上下文(128Ktokens)的多轮交互 表格检索和数据库检索的效果提升6%以上 角色扮演 问题:V3/R1原模型在角色扮演场景下存在括号文学单一、重复等问题,效果不佳 方案:基于V3模型SFT精调角色扮演专属模型 效果: 提升模型对角色指令遵循能力 借助V3拥有更全、更新的知识储备激发出更丰富 的剧情、更准确的IP角色对话 动态对话与剧情生成 场景实践2–知识问答 问题:V3/R1原模型有较强的先验知识,指令遵循弱,导致不按内部文档库回答,例如忽略业务场景过度推理、超出已知内容时根据模型自身知识回答等情况 方案:结合指令遵循和阅读理解数据对V3/R1进行SFT/DPO训练效果:指令遵循增强 回答安全可控,不做过度推理 模型高效推理,推理过程简洁高效 精调前 精调后 精调前 精调后 问题:V3/R1指令遵循能力较差,表现为“不听话” 方案一:仅利用R1长思维链,借助Instruct模型(如qwen2.5-72B-Instruct、LLaMA3.3-70B-Instruct等)给出最终答案 效果: 方案二:结合Agent关注的指令遵循能力数据集使用SFT、 DPO/GRPO微调R1或R1蒸馏版模型 效果: 场景实践3–交互式Agent 使用常规训练集(涵盖QA、数学、代码、写作、翻译等领域)进行训练得到具备指令遵循能力的baseline模型。 在baseline基础上,使用数据飞轮技术针对性构建指令遵循训练集强化指令遵循能力,其微调效果已经得到了确认(+3.6%) 微调R1或R1蒸馏版模型预期有类似效果提升 结合R1思维链后,Instruct模型可在现有REACT框架下无痛升级 启动阶段启动阶段 开源资源分散,准备周期长 不知怎么基于R1蒸馏模型 痛点 TI平台价值 内置蒸馏方案,开箱即用内置全系模型,一键精调 痛点 解决技术问题,体验效果滞后 免费体验,快速验证效果 内置全系模型,一键部署 开源框架繁多,不知怎么选 TI平台价值 探索期 痛点 TI平台价值 探索期 TI平台价值 痛点 工具链易上手,快速验证效果 验证效果链路长,耗时久 蒸馏精调服务部署 算力空闲情况多,ROI低 统一资源纳管,灵活腾挪算力 根据业务量探索资源用量 统一资源纳管,灵活切换 配置自主可控,快速验证并发用量 机型差异大,选型难 稳定期稳定期 TI平台×大模型 痛点TI平台价值 故障多,无法长时间稳定运行 故障感知修复+监控,高可用 规模扩大,人/物料管理难度高 细致的资源级权限管控 TI平台×大模型 痛点 业务量变化,服务调整难度大 一键多副本,快速线性扩缩容 持续升级推理加速,降本增效 TI平台价值 算力投入大,优化成本长期存在 Thanks