登录
注册
个人信息
我的订单
我的报告豆
我的优惠券
我的笔记
我的阅读
我的收藏
我的下载
我的上传
我的订阅
在线客服
退出登录
回到首页
AI
搜索
发现报告
发现数据
发现专题
专题报告
专题百科
研选报告
定制报告
VIP
权益
发现大使
发现一下
行业研究
公司研究
宏观策略
财报
招股书
会议纪要
seedance2.0
低空经济
DeepSeek
AIGC
大模型
当前位置:首页
/
行业研究
/
报告详情
8-1 基于多模态大模型的人机对话-王金桥
信息技术
2022-08-30
DataFunSummit2022:数字人技术峰会
叶剑锋
核心观点与关键数据
数字人市场与机会
使用目的
:IP影响力/粉丝经济、替代真人服务/降本成效、人性化陪伴/智能化服务
未来趋势
:随着智能化水平提升和成本下降,元宇宙基础设施将推动超级助手和情感陪护等应用
数字人存在的问题
成本高昂
:制作成本数十万至百万,生产周期长达数月
无法互动
:静态形象,无法输出视频内容,无法互动
场景受限
:制作粗糙,商业价值不高,应用领域受限
数字人技术发展路线
底层技术
:以GAN + NeRF实现数字人快速批量生成、驱动与互动
价值格局对比
:
传统CG模式:时间>3个月,成本>40W,低自然度,低复原度,无法批量
AIGC数字人:时间<3周,成本<10W,真人效果,多种风格,批量生产
数字人技术概述
数字人创造与编辑
:
CG创造
:基于传统计算机图形技术,优点是手工设计可控性强,缺点是成本高、周期长、工序复杂
AIGC创造
:通过人工智能技术自动生成图像内容,优点是成本低、效率高,缺点是网络可解释性弱,依赖于海量训练数据
数字人驱动
:
中职人驱动
:人脸替换、面部捕捉,优点是表情姿态自然度高,缺点是需要真人演员
无中职人驱动
:Talking-head(文字/语音信息驱动)、AIGC图像生成、CG图形学渲染
基于全姿态三维理解的大角度换脸
技术方法
:全姿态三维理解和全息重建方法,基于自注意力机制的时空融合网络模型
应用场景
:单图三维驱动的塑造合成主播
人机对话技术
多模态融合
:利用文本、图片、音频和视频等不同模态数据进行跨模态的统一表征和学习
自监督学习
:从大规模无监督数据中挖掘隐含的监督信息进行训练
“紫东太初”多模态大模型
性能
:全球领先,模型参数大,泛化性强
应用
:多模态协同、语义统一、空间跨模态理解、跨模态生成、多模态问答、跨模态检索
竞赛成绩
:ACM MM2021、ICCV2021国际竞赛第一名,视觉对话、IEEE BigData榜单第一名
应用案例
“千人千面”个性化虚拟人像生成
:服务于长安汽车车载终端,输入真实图像生成个性化卡通形象
杭州数字人-杭小忆
:全国首个城市数字人形象,为杭州文化旅游提供代言形象
国际首个多模态手语“千博计算手语云平台”
:基于紫东太初模型,打造手语多模态模型并发布手语教考一体机
研究结论
AIGC数字人技术显著降低了成本,提高了生产效率,扩展了应用场景
多模态大模型技术推动了人机对话的进步,实现了更接近人类的学习方式
数字人技术在多个领域具有广泛的应用前景,包括文旅、车载、特殊人群服务等
你可能感兴趣
王俊杰-基于多模态大模型的用户界面交互和测试
商贸零售
2024AI研发数字峰会AiDD北京站
2024-11-17
【点金互动易】机器人AI多模态,细分机器人产品在日、法等多国均有交付,在人形机器人领域展开布局,已发布基于多模态超融合技术的大模型,这家公司Al领域储备包括视觉技术、机器人控制技术
商贸零售
未知机构
2024-03-07
操作系统智能体:基于多模态大模型(mllm)的通用计算设备智能体综述
商贸零售
浙江大学&复旦大学&OPPO AI中心
2025-08-06
8-1 隐私计算赋能医疗健康大数据价值流转 - 王爽
商贸零售
DataFunSummit2022:数据安全与隐私计算峰会
2022-07-18
【财联社早知道】谷歌Gemini AI新计划曝光,多模态不断突破或推动AI应用打开商业化空间,这家公司的多媒体大模型涵盖语言、音频、图像、视频等多模态能力
商贸零售
未知机构
2023-12-10