数智人行业发展概述 中国移动研究院业务研究所2024年3月 摘要 数智人,业界也将其称为虚拟人、数字人,是具有数字化外形的虚拟人物,借助计算机图形学、动作捕捉、人工智能等计算机手段创造,依赖显示设备存在,拥有人的相貌、行为及思维[1]。作为一种多技术融合的虚实交互媒介,数智人与人工智能、虚拟现实、元宇宙等新型产业发展密切相关,并持续受到各方关注,而相关政策的出台更为 行 业 快 速 发 展 注 入 动 力 。2022年1月 国 务 院 发 布 的《“十四五”数字经济发展规划》中指出要加强类人智能自然交互与虚拟现实等技术研究。2022年8月,北京市经信局发布国内首个数字人产业专项支持政策——《北京市促进数字人产业创新发展行动计划(2022-2025年)》,并提出目标到2025年,北京市数字人产业规模突破500亿元。本文通过阐述数智人主流产品类别、商业模式及行业 发展进程,分析了数智人技术发展的六大最新趋势,并同时对行业发展现状进行总结与分析。 一、主流产品类型和商业模式分析 业内主流数智人产品按照功能应用维度可划分为IP型、服务型、身份型三种,分别对应IP运营、客户服务和流量变现三种商业模式[2]。 (一)IP型数智人 IP型数智人产品定位为具有情感导向、价值内涵和圈层影响力的虚拟偶像和品牌形象大使,第一需求方是影视游戏、文娱公司等内容生产B端厂商。目前相关技术基本成熟,已有较多成功商用案例,如洛天依、AYAYI、柳叶熙、翎Ling等虚拟偶像,和以5G冰雪推广大使Meet Gu为代表的中国移动数智人家族,其商业价值及社会影响力已得到验证。 由于用户对IP型数智人外观的精细度和写实度要求较 高,这类产品的形象风格从最初的二次元,逐渐发展为美型偏写实、超写实风格。生产技术路线早期以手工原画设计为主,之后主要是基于相机阵列扫描等专业采集设备的高精度3D建模配合CG模型精修,形象制作成本从50到100万元不等,制作周期需2-3个月,人工依赖程度高、成本高、耗时长、产能低。面向影视、营销场景的IP型数智人对交互实时性要求较低,且通常依赖美术特效团队进行后期加工,其驱动方式以采用专业动捕场地及设备的真人驱动为主。 IP型数智人实现商业变现的核心在于IP运营,包括完善人设、提升建模精美程度、持续产出多元化内容等。其主要收入渠道有:(1)品牌推广、直播带货等营销收入;(2)商演、直播、影视参演、专辑发售等形象授权和内容创作收入;(3)游戏、动漫、手办模型等周边衍生收入。 (二)服务型数智人 服务型数智人通过交付给企业客户实现变现,帮助企业对外提供自动化、智能化、标准化且支持7*24小时的行业服务,起到对人工的增强和辅助作用,助力企业降本增效。相关技术已部分成熟,但由于这类产品大多不直接创造收入,商业价值仍处于待验证阶段。 相比IP型数智人,服务型数智人的外形要求相对较低,但对交互的流畅性、行业知识的丰富程度要求较高,因此其生产不仅包含外形建模,还涉及行业知识库及知识图谱的构建,对技术与产业的整合升级提出了更高要求。为满足企业降低成本的需要,功能服务型数智人的建模方式也更倾向于采用轻量化的AI算法进行人物2D/3D建模,驱动方式也从真人驱动逐渐转向全自动的AI驱动。 服务型数智人已在金融、文旅行业积累较多应用成果, 如浦发银行和百度共同发布数字员工“小浦”,中国文物交流中心与百度智能云打造的虚拟文物解说员“文夭夭”等,这类产品后续将在医疗、教育等具有流程属性的行业有较大应用潜力。例如面向医疗行业,满足就医引导、诊疗辅助、患者情感陪伴等需求,将衍生出虚拟导诊、家庭陪护、健康顾问等专业化数智人产品;面向教育行业,未来可能会出现虚拟教师、虚拟作业陪写员等应用。 (三)身份型数智人 身份型数智人相关技术和产品正在探索中,尚无规模化应用案例,待产业进一步完善,目标是实现用户利用平台工具制作千人千面的虚拟形象并能够在虚拟场景内进行社交、会议、演出观看等活动,平台厂商通过对虚拟空间进行规则设定来实现流量变现。身份型数智人旨在面向广大C端用户提供现实世界与虚拟空间之间全面感知和链接的 入口与载体,其核心属性是身份和交互。这要求在技术上实现通过简便快捷的数据采集,结合低成本、全自动的建模/生成技术来高效制作形象,并利用实时视觉动捕等技术使用户能够自然地驱动形象在虚拟空间中活动并与他人实时互动,这进一步提高了对算法、算力、网络传输、软硬件基础和技术集成能力的要求。目前,大规模多人互动及虚拟空间相关技术和产品还在发展中,百度希壤等元宇宙应用中已经出现了个性化形象生成功能,ZEPETO、SOUL等虚拟社交产品中也有相关应用,市场潜力较大但商业模式仍不明确。 二、行业应用发展进程 业界将数智人应用发展按时间维度大致划分为三个阶段[3]: (一)前期探索阶段(2010-2015) 在行业发展初期,IP型数智人在泛娱乐场景率先落地, 拉动技术进步的同时,向社会各界普及虚拟人的概念,持续形成宣传与示范效应。 2007年日本推出了史上第一个被广泛认可的虚拟歌手初音未来,经过10余年运营已在全球70个国家拥有6亿粉丝,代言上百家品牌,其商业价值已超百亿日元。国内第一虚拟歌手洛天依从2012年开始活跃在动漫“二次元”圈层,于2021年登上了央视春晚,标志着虚拟偶像逐渐在主流媒体中争得一席之地。洛天依“出圈”的背后是因其开创了一个基于同人创作圈的运营模式,其推出的上万首作品,绝大多数由其粉丝兼音乐人投稿完成。基于“VOCALOID”歌声合成引擎,每个人都可以通过为洛天依赋予形象或故事来实现自我表达,这使粉丝与洛天依之间建立起一种超越真人偶像的情感于价值连接。 (二)产业融合发展阶段(2015-2021) 跟随娱乐行业的步伐,金融、文旅、快消等其他垂直产业应用跟进,开始出现为政府、企业、品牌对外提供公共服务的数智人解决方案和平台工具,且产品核心价值逐渐 向两个方向分化:一是专业化,体现为细分领域的专业虚拟顾问;二是情感化,强调与人之间的情感互动,满足陪护、督促等需求[4]。 腾讯智影提供了低成本数字人播报SaaS工具,以虚拟数字人为核心打造了文本配音、文章转视频、模板创作、在线视频剪辑等功能。平台收费模式包括付费会员和定制付费两种,会员可在2D/3D数字人模板库中选择形象制作播报内容;如果用户需要生成和特定真人类似的数字人或数字分身,可以采购其定制服务,上传照片、视频、音频即可实现定制。百度智能云曦灵面向金融、媒体、互娱等行业,提供服务型、演艺型数字人解决方案,可应用在手机APP端、云屏端,扮演智能客服、数字理财经理、数字商品导购、数字培训师、数字讲解员等角色,实现人机可视化语音交互服务。此外,搜狗、魔珐科技、相芯科技均有提供相应数智人技术服务的平台。 提升数智人情感互动的典型案例是OPPO发布的手机端智能服务助手小布4.0。当用户与小布进行语音对话时,小布 能创造真实自然的聊天环境,响应用户情感并反馈体现在动作、表情、音调中;当用户点击它身体不同的部位,例如摸头、摸手、摸肚子等交互动作时,小布也会做出对应的身体动作反应。 另外,在这一阶段,IP型数智人的应用领域不断拓宽,运营方式及商业模式趋向多元化,传播力和社会影响力进一步扩大[5]。2021年,中国移动推出的超写实格斗数智达人尤子希亮相咪咕演播室,为观众带来了精彩的UFC赛事解说首秀。2022年,尤子希以元宇宙UFC的特派员身份开启首场MMA健身直播,与粉丝实时互动聊天。凭借精心制作的3A级逼真形象和性格爱好、形式逻辑等完整人物设定,尤子希作为虚拟IP的可塑性和虚实互动的空间进一步提升,在体育、时尚领域影响力持续增,入选了清华大学新闻与传播学院新媒体研究中心发布的“2022年虚拟数字人综合指数排名TOP10”榜单[6]。 (三)多模态智能发展阶段(2021-至今) 伴随着以ChatGPT为代表的AIGC、大模型技术的引入, 数智人技术进入了高速发展期。语音、图片、视频等多模态元素的融合扩展了数智人感知理解的维度,提升了其交互内容和交互形式的丰富度,因而数智人的创造力、自动化程度和真人替代能力也进一步提升,极大地拓宽了数智人在多个领域的应用潜力。 数字助手微软小冰从第五代产品开始已具备了多模态生成交互能力,融合了全双工语音交互、实时视觉与核心对话引擎,实现用户与人工智能同时边听边说边看的交互体验。基于歌声合成、文生图等艺术家模型,小冰集诗人、歌手、主持人、画家和设计师多种功能于一身,通过不断学习迭代来实现与人类艺术家同等质量水准的创作。 另外,在此阶段,数智人生产能力也朝着智能化、便捷化、精细化、多样化发展。2021年,Epic发布MetahumanCreator,基于云端的混合型变计算和渲染,支持用户在网页端创建高保真的3D虚拟形象,并结合苹果ArKit等实时3D面部关键点捕捉工具生成面部动画。 (四)未来发展趋势 根据市场分析机构预测[7],2025年我国虚拟人带动产业 市场规 模 和核 心市场规 模 将 分 别达到6402.7亿 元 和480.6亿元。从当前市场构成方面,数智人生产和运营的B端市场占比最高,达到了79%,并且规模不断扩大。其中,2023年企业用户购买最多的数智人产品类型是数字员工,占比60.2%,其次是自定义数字人,占比为53.3%,为明星等名人定制数字形象的需求占比为38.6%。 随着技术进步和市场认知提升,数智人的技术门槛和软硬件成本进一步下降,数智人服务逐渐向工具化和系统化演进。面向广大C端用户的身份型数智人的应用潜力巨大,与元宇宙概念结合,将形成更开放的创作生态和全新商业模式。在可预见的未来,更多支持制作二次元、三维写实超写实等风格数智人的开放工具和平台将充分满足C端用户生产、管理、运营形象资产和虚拟身份的需求;借助成熟 的视频、语音等轻量级多模态驱动技术,只需手机等移动端的单摄像头和算力就能实时获得驱动数智人所需的高精度动作和表情数据;再将虚拟化身与各类虚拟空间平台相结合,实现高自由度的、深度沉浸的6DoF空间交互通信,人们互联互通方式将再次升级。 三、行业技术发展方向 第一,产学界共同推动低成本轻量化算法覆盖数智人全流程,促进C端应用成熟。近年来涌现出一系列轻量化计算机图形学技术,如隐式三维重建、实时神经渲染等,推动三维人物建模的实时性、自动化、精细度提升。仅需单目/多目便携式设备采集的视频数据进行训练就能全自动创建人物模型,无需依赖特殊采集环境及设备和手工建模,大幅降低了数智人生产成本。2023年8月,学术界提出了一种新方法实现3D辐射场的实时渲染,即3D Gaussian Splatting(3DGS)[8],该方法相比已有的隐式神经辐射场技术,进一步突破了三维人物/场景的渲染速度和渲染质量的边界。苹果团队2023年12月发表的最新工作[9]提出引入3DGS来表示可驱动的人体及场景,只需要2到4秒的视频(50-100帧),就能生成完整的人体模型,并对皮肤和衣服、头发等细节进行精细建模,速度比当前其他同类技术(NeuMan[10]、Vid2Avatar[11]等)快约100倍。 另外,2022年兴起的text-to-3D生成式AI技术[12],通过收集大规模3D数据库和对应的文本描述训练扩散模型,只需输入文本提示词,完全避免了用户侧的数据采集步骤高 效 率、低门 槛地生 成3D模 型 。 影眸 科技推出 的ChatAvatar[13]和微软RODIN[14]就基于text-to-3D技术只需要简单的文本提示词描述外貌特征,就能在快速生成3D数字人资产,并且模型带有规整的拓扑、材质贴图和绑 定数据,可以直接接入Unity、Unreal Engine和Maya等制作引擎的生产管线中。 在驱动方面,视觉、语音驱动算法的优化推动专业动捕设备趋向便捷化,面部捕捉技术向更简单的硬件、更细腻的表情、更自动化的流程方向发展。已有学术及产业界团队提出采用AI生成式模型[15],基于语音生成节奏一致性的人体面