
目录Menu •HY-MT近期进展•HY-MT效果与CASE分享•HY-MT训练方案详解•HY-MT应用场景能力建设•经验总结•未来展望 导师介绍 郑茂 现任腾讯混元技术专家,混元应用算法负责人。负责混元大模型在腾讯的应用落地,包括广告、社交、娱乐、教育、客服等业务的大模型应用层效果优化。技术研究方向包括大模型复杂推理、多轮对话、翻译、RAG、AGENT等。在ACL、AAAI、EMNLP、COLING、CVPR等会议上发表数十篇论文。带领团队获得WMT2025翻译比赛诸多赛道第一名。 HY-MT近期进展 WMT2025 HY-MT开源 多场景应用落地 -开源HY-MT1.5-7b、HY-MT1.5-1.8b、HY-MT-Chimera三个模型-重点支持33个语种互译。特色能力包括5种民汉语言/方言互译、俚语翻译等-Huggingface首页趋势榜排名第一,HY-MT1.5开源28天下载量超30W次 -通用翻译赛道上,31个语种中30个语种第一(超过Gemini-2.5-pro、CLAUDE4、deepseekv3、qwen3235b等模型)。 -31个语种除了中文、英语、德语、日语等常见语种,也包含捷克语、马拉地语、爱沙尼亚语、冰岛语等小语种 -接入腾讯会议(实时翻译、会后翻译),腾讯游戏出海翻译、企业微信(聊天记录翻译、邮件翻译),微信读书(划词翻译、书籍翻译)、QQ浏览器(文件翻译、划词翻译),腾讯海外客服、腾讯云翻译等。 夺冠 开源 HY-MT效果与CASE分享 HY-MT效果与CASE分享 HY-MT效果与CASE分享 HY-MT效果与CASE分享 HY-MT效果与CASE分享 HY-MT训练方案详解 HY-MT训练方案详解 如何进行多语言增训(CPT) 如何获取高质量平行语料(SFT) 高资源语种 低资源语种 对于低资源语种,采用高资源语种(如英语)进行桥接得到低资源语种之间的平行语料,再通过多维度质量打分进行筛选 先采用少量网络收集和内部人工标注的高质量数据训练一个融合模型,然后使用该融合模型,将多个效果领先的大模型翻译结果进行融合,最终得到质量更高的翻译结果 如何设计多语言RM(RL) 如何提升低资源语种翻译效果(RL) SSR(Simple Self-Rewarding)强化学习训练方案 利用回译方法,只依赖单语数据即可训练。让模型把语种A文本翻译成语种B,再翻译回语种A,通过计算两个语种A文本的相似性来得到reward信号。 使用特定prompt对翻译质量进行打分,最终使用该打分进行GRPO强化学习训练。这样既能做到不依赖平行语料,又能做到翻译能力和翻译打分能力之间的相互促进。 低资源语种效果达到同尺寸SOTA 如何提升术语翻译效果(RL) TAT-R1训练方法 在强化学习训练阶段,提出TAT-R1训练方法,在RM中引入术语词对齐、术语出现顺序、思维链是否包含关键术语等维度 通用翻译能力不下降的情况下,模型术语翻译效果大幅度提升 HY-MT应用场景能力建设 术语、例句库翻译 带格式翻译 典型场景:定制化翻译需求的场景、领域翻译专业度要求高 典型场景:企微邮件翻译,QQ浏览器网页翻译,腾讯视频字幕翻译。 实时翻译 词典翻译&解释性翻译 典型场景:划词翻译、教育场景倡议能力 典型场景:腾讯会议会中翻译,腾讯财报会同声传译,QQ浏览器视频/直播翻译 HY-MT应用场景能力建设 实时翻译 带格式翻译 解决方案: -设计一协议承载原始格式信息,可以多个相邻文本一起翻译,保证翻译语义套连贯性。-借助LLM和词对齐等工具构造训练数据,并人工check确保数据质量-SFT进行冷启+GRPO强化提升效果,reward既关注翻译质量也关注格式信息保留效果 解决方案: -模型小型化,采用更小激活参数模型-补充口语化数据,通过强化学习不断提升效果-重点增强多轮对话场景的模型上下文翻译一致性 HY-MT应用场景能力建设 术语、例句库翻译 词典翻译&解释性翻译 解决方案: 解决方案: 建设翻译系统,提供可编辑、实时生效的术语、例句库检索模块提升模型的术语指令遵循能力,适应多种语境 词典知识注入:收集词典数据,如牛津词典、21世纪大英汉词典等例句解释知识注入:解释性翻译数据收集 经验总结 未来展望 多模态翻译语音端到端翻译、图片/视频翻译 2 翻译AGENT用memory解决长文翻译一致性等问题 3 翻译模型 Thank you感谢观看! AI开源模型部署和开发实战教学 目录Menu •部署方案概览•HuggingFace Transformers•VLLM高性能引擎•LM Studio图形化部署•方案对比与选型建议 为什么需要本地部署大模型? 成本控制 数据隐私保护 敏感数据无需上传至云端,完全在本地环境处理,满足企业合规要求与数据主权需求。 长期使用成本显著低于API调用,高频场景下可节省60%以上费用,无调用次数限制。。 定制化能力 离线可用性 支持模型微调、量化、私有化部署,可根据业务需求深度定制模型能力与推理参数。 无需网络连接即可运行,适用于内网环境、边缘计算、移动设备等离线场景。 部署方案概览 三种主流技术路线,各有优势与适用场景HuggingFace TransformersVLLMLM Studio HuggingFace Transformers Transformers Pipeline工作原理 代码示例 Pipeline核心概念 统一接口封装:将模型加载、预处理、推理、后处理封装为简单API,一行代码完成任务多任务支持:text-generation、text-classification、question-answering、translation等自动模型管理:自动从HuggingFaceHub下载模型,支持本地缓存与版本控制 pipe = pipeline("text-generation",model="openai-community/gpt2",device="cuda" # GPU加速)#执行推理result = pipe("人工智能的未来是",max_new_tokens=100 工作流程 1输入文本用户输入prompt或待处理文本 2Tokenizer预处理文本编码为token序列 3模型推理神经网络前向计算生成输出 4输出解码token序列解码为人类可读文本 VLLM核心创新:PagedAttention 核心思想:操作系统虚拟内存分页 PagedAttention vs传统KV Cache PagedAttention借鉴操作系统虚拟内存分页思想,将KV Cache划分为固定大小的Block进行动态管理,实现显存的高效利用。 物理块(Physical Block)GPU显存中预分配的物理页,按需动态分配 逻辑块(Logical Block) 每个请求的KV Cache在逻辑上划分为固定大小块(如16 tokens) Block Table映射机制 核心优势 #请求A的Block Tablerequest_a.block_table = [15, 88, 3, 92]#逻辑块0 →物理块15#逻辑块1 →物理块88#逻辑块2 →物理块3#逻辑块3 →物理块92 显存碎片大幅降低固定大小Block,请求结束后立即回收复用支持超高并发不同长度请求可混合执行,动态分配KV Cache天然支持长上下文KV Cache可按需增长,无需预分配最大长度 通过Block Table实现逻辑序列到物理存储的解耦,支持非连续内存存储,大幅提升显存利用率。 VLLM性能优势与部署方式 量化支持GPTQ/AWQ/INT8 LM Studio核心特性 llama.cpp引擎 图形化界面 无需编写代码,通过直观的图形界面完成模型下载、加载、配置和对话。适合非技术用户快速上手。 基于高性能llama.cpp推理引擎,支持CPU和GPU混合推理,在消费级硬件上也能流畅运行大模型。 OpenAI兼容API 内置模型市场 内置HuggingFace模型市场,支持搜索、浏览、一键下载开源模型。自动管理模型版本与依赖。 提供本地API服务,完全兼容OpenAI API格式,可无缝集成到现有应用中。 # API端点http://localhost:1234/v1 GGUF量化支持 适用人群 原生支持GGUF格式模型,提供多种量化级别选择(Q4_K_M、Q8_0等),大幅降低显存占用。 非技术用户、教育工作者、学生、快速原型验证者,以及希望在本地体验大模型但不想编写代码的用户。 Thank you感谢观看!