火山引擎虚拟数字人技术与应用总结
火山引擎虚拟数字人简介
火山引擎虚拟数字人是以虚拟数字人形式代替真人员工和客户沟通,提供可视化、智能化的交互服务,为企业提供高度拟人化的服务型数字员工。其核心技术包括语音增强、语音识别、声纹识别、语种识别、语音合成、跨语言合成、多方言合成、语音变声、自然语音理解、机器翻译、问答系统、活体检测、人脸识别、情感识别等,通过数字化外表和多模态技术存在于虚拟世界,实现行为、技能的高度拟人化。
2D数字人技术体系
2D数字人技术体系主要包括文本/语音驱动、唇形身份/表情/姿态拟合、虚拟人脸换脸、人脸编辑、人脸美化、人脸恢复、五官改变、关键点检测、换头动作生成、动作预测、虚拟试穿、人体姿态估计、面部生成、头部口型修正、人脸分割、人脸转正、可控头动驱动算法、定制化肢体动作切换驱动算法等。其核心优势包括高并发(T4单卡20核CPU下1080p/25fps视频流支持10路并发)、功能全面(支持公有云接口调用及私有化部署、打断及SSML形式插入动作、任意背景更换、音色切换、多语种、多方言)、低成本、效果优良(整体自然度MOS评测可达3.9、唇形准确率高达98.6%、5min数据即可完成基本定制、自动化平台支持自动化训练及上线)。
3D数字人技术体系
3D数字人技术体系主要包括文本/语音驱动、唇形表情系统、人脸重建、面部捕捉、唇形运动迁移、动作生成、动作预测、单目动捕、头部驱动算法、相关算法、肢体高级动作系统、驱动算法、相关算法、引擎功能、数据修正、多目动捕、动作重定向、离屏渲染、换装/配饰、摄像机系统、背景更换、背景音乐、运动匹配、场景特效、动画采样、转场动画、图片轮播等。3D数字人制作流程包括原图设计、灰模制作、材质制作、渲染测试、面捕动捕数据精修、数据采集、驱动模型训练、引擎能力集成、上线。
火山引擎虚拟数字人应用
火山引擎虚拟数字人应用平台涵盖内容生产和实时交互两大功能。内容生产方面,提供高效的数字人内容制作工具;实时交互方面,实现数字人与用户的实时互动。应用场景包括3D金融面审、电商直播等。
火山引擎虚拟数字人展望
未来,火山引擎虚拟数字人将重点提升表现力、增强感知能力、加强定制化能力、降低数据成本。具体方向包括:
- 2D数字人支持大姿态面部合成,提升面部合成情感表现力和肢体动作表现力,引入更多人脸相关能力。
- 3D数字人完善引擎能力建设,探索角色定制,引入多模态感知能力,提升数字人可控度。
- 积累大模型数据,探索小数据量边界,完善迁移方案,小成本完成成熟能力复制。