登录
注册
回到首页
AI
搜索
发现报告
发现数据
发现专题
研选报告
定制报告
VIP
权益
发现大使
发现一下
行业研究
公司研究
宏观策略
财报
招股书
会议纪要
中央经济工作会议
低空经济
DeepSeek
AIGC
智能驾驶
大模型
当前位置:首页
/
行业研究
/
报告详情
02-华为机器翻译模型训练推理加速实践-魏代猛
文化传媒
2023-06-06
ArchSummit北京2023|全球架构师峰会
杨***
AI智能总结
查看更多
华为机器翻译架构和模型加速
机器翻译简介
主流机器翻译模型包含Encoder和Decoder两部分,Encoder将原文序列编码为多维向量,Decoder将向量解码为译文。
Attention模型记录原文与译文的词对齐关系,提升长句翻译质量。
模型推理问题
Transformer模型在GPU、CPU、ARM上的典型推理耗时分别为45 ms/token、150 ms/token,端侧推理最具挑战。
模型推理面临存储和计算量过大问题,需在质量、速度和大小之间进行权衡。
端侧推理加速策略
知识蒸馏
通过知识蒸馏将大模型知识迁移到小模型,实现小模型的高质量翻译。
TinyBERT通过知识蒸馏实现96%的端侧推理加速,小模型参数量更小但质量接近大模型。
模型压缩与低精度推理
模型压缩和低精度推理可减小模型存储和计算量。
量化推理将FP32转换为Int8或4-bit,显著降低模型大小和推理速度。
直接4-bit量化影响较大,前期介入量化训练(如Log 4-bit)效果更优。
Int8推理中矩阵运算(GEMM)是计算量最大的部分,需优化量化和反量化过程。
模型结构优化
结构优化包括参数共享、多语言模型和Decoder结构改进。
多语言模型将多个语种整合到一个模型中,提高资源利用率。
ShortListDecoder结构专注于减少计算量,通过词对齐优化和候选词筛选提升效率。
Decoder结构优化包括SRU++、AASRU等,减少计算量并保持翻译质量。
华为机器翻译
华为机器翻译结合业务场景和自身优势,不断迭代优化策略。
在GPU、CPU、ARM上综合应用知识蒸馏、量化推理、模型结构优化和多语言模型技术。
端侧推理加速策略总结:
知识蒸馏:√
量化推理:√√√
模型结构:√√√
参数共享:√
多语言:√√√
ShortList:√√
Decoder结构:√
WMT22 Efficiency Task小结
华为机器翻译在WMT22效率任务中取得优异成绩,验证了多策略融合的有效性。
通过综合优化模型大小、计算量和翻译质量,实现高效端侧推理。
你可能感兴趣
RecSys示例:HSTU模型训练和推理最佳实践
信息技术
NVIDIA
2025-05-30
GPT模型推理加速实践
NVIDIA
2023-04-23
通信行业点评:草莓模型公布,训练与推理共振光模块机会
信息技术
德邦证券
2024-09-17
【电报解读】Sora模型推动Al多模态领域飞跃式发展,训练和推理将提升对算力基础设施需求,这家公司已向微软提供多种产品-20240219
未知机构
2024-02-19
模型训练方兴未艾,推理需求显著增长
国盛证券
2024-02-26