行业研究公司研究宏观策略财报招股书会议纪要 seedance2.0 低空经济 DeepSeek AIGC 大模型

8-1 基于多模态大模型的人机对话-王金桥

信息技术 2022-08-30 DataFunSummit2022：数字人技术峰会叶剑锋

核心观点与关键数据

数字人市场与机会

使用目的：IP影响力/粉丝经济、替代真人服务/降本成效、人性化陪伴/智能化服务
未来趋势：随着智能化水平提升和成本下降，元宇宙基础设施将推动超级助手和情感陪护等应用

数字人存在的问题

成本高昂：制作成本数十万至百万，生产周期长达数月
无法互动：静态形象，无法输出视频内容，无法互动
场景受限：制作粗糙，商业价值不高，应用领域受限

数字人技术发展路线

底层技术：以GAN + NeRF实现数字人快速批量生成、驱动与互动
价值格局对比：
- 传统CG模式：时间>3个月，成本>40W，低自然度，低复原度，无法批量
- AIGC数字人：时间<3周，成本<10W，真人效果，多种风格，批量生产

数字人技术概述

数字人创造与编辑：
- CG创造：基于传统计算机图形技术，优点是手工设计可控性强，缺点是成本高、周期长、工序复杂
- AIGC创造：通过人工智能技术自动生成图像内容，优点是成本低、效率高，缺点是网络可解释性弱，依赖于海量训练数据
数字人驱动：
- 中职人驱动：人脸替换、面部捕捉，优点是表情姿态自然度高，缺点是需要真人演员
- 无中职人驱动：Talking-head（文字/语音信息驱动）、AIGC图像生成、CG图形学渲染

基于全姿态三维理解的大角度换脸

技术方法：全姿态三维理解和全息重建方法，基于自注意力机制的时空融合网络模型
应用场景：单图三维驱动的塑造合成主播

人机对话技术

多模态融合：利用文本、图片、音频和视频等不同模态数据进行跨模态的统一表征和学习
自监督学习：从大规模无监督数据中挖掘隐含的监督信息进行训练

“紫东太初”多模态大模型

性能：全球领先，模型参数大，泛化性强
应用：多模态协同、语义统一、空间跨模态理解、跨模态生成、多模态问答、跨模态检索
竞赛成绩：ACM MM2021、ICCV2021国际竞赛第一名，视觉对话、IEEE BigData榜单第一名

应用案例

“千人千面”个性化虚拟人像生成：服务于长安汽车车载终端，输入真实图像生成个性化卡通形象
杭州数字人-杭小忆：全国首个城市数字人形象，为杭州文化旅游提供代言形象
国际首个多模态手语“千博计算手语云平台”：基于紫东太初模型，打造手语多模态模型并发布手语教考一体机

研究结论

AIGC数字人技术显著降低了成本，提高了生产效率，扩展了应用场景
多模态大模型技术推动了人机对话的进步，实现了更接近人类的学习方式
数字人技术在多个领域具有广泛的应用前景，包括文旅、车载、特殊人群服务等

报告封面

点击免费查看完整报告

你可能感兴趣

hot

王俊杰-基于多模态大模型的用户界面交互和测试

商贸零售

2024AI研发数字峰会AiDD北京站2024-11-17

hot

【点金互动易】机器人AI多模态，细分机器人产品在日、法等多国均有交付，在人形机器人领域展开布局，已发布基于多模态超融合技术的大模型，这家公司Al领域储备包括视觉技术、机器人控制技术

商贸零售

未知机构2024-03-07

hot

操作系统智能体：基于多模态大模型（mllm）的通用计算设备智能体综述

商贸零售

浙江大学&复旦大学&OPPO AI中心2025-08-06

hot

8-1 隐私计算赋能医疗健康大数据价值流转 - 王爽

商贸零售

DataFunSummit2022：数据安全与隐私计算峰会2022-07-18

hot

【财联社早知道】谷歌Gemini AI新计划曝光，多模态不断突破或推动AI应用打开商业化空间，这家公司的多媒体大模型涵盖语言、音频、图像、视频等多模态能力

商贸零售

未知机构2023-12-10