AI智能总结
一、技术路径:参考PKM设计做优化,通过优化访存机制,在相同参数和激活条件下实现更低的内存占用,使其在批处理场景下访存成本接近Dense模型。 二、实现效果:有效解决MoE推理时高额的访存问题,推理速度较MoE架构提升2-6倍,推理成本最高可降低8 【中泰科技孙行臻团队】豆包UltraMem再现端侧降本,访存改善利好端侧应用落地 豆包提出稀疏模型架构UltraMem,实现降本&低访存一、技术路径:参考PKM设计做优化,通过优化访存机制,在相同参数和激活条件下实现更低的内存占用,使其在批处理场景下访存成本接近Dense模型。 二、实现效果:有效解决MoE推理时高额的访存问题,推理速度较MoE架构提升2-6倍,推理成本最高可降低83%。 低访存特性,更适合高频调用和端侧部署一、实时性:适用于对延迟要求较高的推理场景。 实时语音交互、移动端图像处理等端侧应用的响应延迟显著降低,用户体验流畅度提升。 二、普惠性:本地部署要求大幅降低,大规模部署端侧设备成为可能,相关应用场景井喷。 建议关注:1 )豆包合作伙伴:汉得信息、博彦科技、广和通、移远通信、中科创达、亚信安全等2)C端消费终端及配套硬件:萤石网络、中科创达等;3)B端软件应用:同花顺、合合信息、金山办公、万兴科技等。