AI智能总结
技术背景篇定义、关键词、分类、技术细节 产业现状篇 市场规模、发展阶段、细分场景及判断、产业链、竞争格局、中外对比、产业瓶颈 量子位硬科技深度产业报告—虚拟数字人 核心观点 1. 虚拟数字人的三大特征是虚拟化、NLP\CV\语音等多种技术共同成熟、高度拟人化。在技术层面上分为灵活的真人驱动型和基于深度学习的计算驱动型。 2. 在2030年,我国虚拟数字人整体市场规模将达到2700亿。身份型虚拟数字人约1750亿。服务型虚拟数字人总规模超过950亿。目前市场仍处于前期培育阶段。 3. 虚拟数字人的应用可分为服务型虚拟人和身份型虚拟人。替代真人服务中的虚拟主播和虚拟IP中的虚拟偶像是目前的市场热点。 4. 虚拟数字人产业链。各厂商规划在未来对核心技术进行外包。 6. 国内外在细分市场上的竞争差异较大,具体包含技术层面、商业模式、细分市场及发展路线。 7. 行业门槛及瓶颈主要来源于三方面:上限偏高的技术及美术门槛;客户积累带来的业务认知;在各细分市场亟待实现的标准化复制 特别感谢:魔珐科技、相芯科技、追一科技、中科深智、火山引擎、小冰公司、黑镜科技、科大讯飞、搜狗、百度及相关行业从事者对本报告的深度参与(排名 如需进一步交流探讨、加入垂直社群等,请联系量子位官方或量子位分析师:刘萌媛(请标注所在单位+职位)邮箱:mengyuan@qbitai.com 量子位硬科技深度产业报告—虚拟数字人 技术背景 1.1 定义 虚拟数字人指存在于非物理世界中,由计算机图形学、图形渲染、动作捕捉、深度学习、语音合成等计算机手段创造及使用,并具有多重人类特征(外貌特征、人类表演能力、人类交互能力等)的综合产物。市面上也多将其称为为虚拟形象、虚拟人、数字人等,代表性的细分应用包括虚拟助手、虚拟客服、虚拟偶像/主播等。 其具体特征可拆分为“虚拟”、“数字”及“人”三个部分。在试用了相关产品后,我们认为,“人”是其中的核心的因素。高度拟人化为用户带来的亲切感、关怀感与沉浸感是多数消费者的核心使用动力。能否提供足够自然逼真的相处体验,将成为虚拟数字人在各个场景中取代真人,完成语音交互方式升级的重要标准。 虚拟—存在于非物理世界中,不同场景实现难度不同 目前,虚拟数字人主要以图片、视频、实时直播、实时动画等方式存在于电子屏中,如APP、小程序、软硬一体显示设备。在未来,VR设备与全息投影也将成为其重要存在方式。 需注意的是,尽管其存在方式均在非物理世界中,由于各场景所需的时延(如直播等实时场景要求低时延,但内容生成场景无该要求)、驱动方式(计算驱动对模型的深度学习能力有极高要求)等不同,对技术、运营等要求差异较大。 数字—依托多项技术存在,相关技术成熟成为其发展重要推动力 虚拟数字人是典型的多技术综合产物。除CG建模+真人驱动的类别外,多模态技术与深度学习成为其核心点。该部分将在技术中详细展开。多位从业人员认为,虚拟数字人近年的发展来源于CG(Computer Graphics,利用计算机进行视觉设计和生产)、语音识别、图像识别、动捕等相关技术的共同成熟。 人 — 在外表、行为、交互行为等方面高度拟人化,外在表现和交互效果已成为核心发展路线 外表: 虚拟数字人的面部长相和整体形象。会受到虚拟数字人类别(如直接借用真人形象、高保真建模、风格化)、制作细节(对汗毛、皮肤、头发等细节的建模)、渲染水平、设计审美等影响 行为: 虚拟数字人的面部表情、形体表达、语音表述等。会受到驱动方式(真人驱动、计算驱动、预制调节等)、驱动模型类别(精细面部肌肉驱动、语音合成模型中对语气词、韵律的处理等)、训练数据、驱动模型精度等影响 交互: 虚拟数字人与现实世界的交互水平,包括回答内容、肢体反应等,会受到语音识别能力、自然语言理解及处理水平、知识图谱、预先设置知识库等影响。 量子位硬科技深度产业报告—虚拟数字人 1.2 技术细节 从技术层面来看,虚拟数字人可以分为真人驱动型和计算驱动型。后者是近年来多模态技术和深度学习发展的技术集大成者。 在真人驱动中,在完成原画建模和关键点绑定后,动捕设备或摄像头将基于真人的动作/表情等驱动虚拟数字人。 由于背后有真人操作,真人驱动型在动作灵活度、互动效果等方面有明显优势,一方面能够在影视内容的创作中减低生产成本,为影视行业降低门槛,推动影视级内容向消费级转化。另一方面则多用于虚拟偶像、重要直播中,帮助虚拟数字人完成大型直播、现场路演等互动性、碎片化活动。 事实上,这种技术思路可以看作是传统影视制作中,CG技术的进一步延续。近年来主要的技术突破在于动作捕捉环节。随着图像识别技术,姿势、表情等识别算法的进步,昂贵的惯性或光学动捕设备不再是驱动的必备工具。普通摄像头结合理想的识别算法通用能实现较为精准的驱动(如iPhone 12摄像头已可支持简单的动作捕捉),显著降低了精细虚拟内容生成的门槛。 真人驱动型技术流程 1. 形象设计及建模 基于IP设计或真人偶像绘制原画,进行面部及身体3D建模,选择关键点 2.建模绑定 将识别关键点映射至模型上,进行绑定。关键点绑定的数量及位置影响最终效果。 3. 表演捕捉 利用动作捕捉设备或特定摄像头+图像识别,捕捉在形体、表情、眼神、手势等方面的关键点变化。 4. 驱动及渲染 真人演员(在虚拟偶像中称为中之人)根据制作需要进行相应表演,实时驱动虚拟数字人表演。在较为精细的制作中,会需要根据真人演员和建模的区别进行重定向,并对动作、眼神、手指等采用不同的驱动方式。 需要时需进行语音合成,形成特定设置语音 5.生成内容,进行互动进行直播,或录制其动作生成内容 在计算驱动型中,虚拟数字人的语音表达、面部表情、具体动作将主要通过深度学习模型的运算结果实时或离线驱动,在渲染后实现最终效果。 计算驱动的虚拟数字人最终效果受到语音合成(语音表述在韵律、情感、流畅度等方面是否符合真人发声习惯)、NLP技术(与使用者的语言交互是否顺畅、是否能够理解使用者需求)、语音识别(能否准确识别使用者需求)等技术的共同影响。尽管在特定方向上,各感知类技术已有的商业化能力已足以支撑,然而,但要达成理想的综合效果,需要该公司在三个方面同时具有较强的综合能力。这也间接导致国内开展计算驱动型虚拟数字人业务的公司,大多是在感知技术方面有较强的综合实力,相对成熟的AI技术公司。 计算驱动型技术流程 1. 设计形象。扫描真人形态及表演、采集驱动数据 利用多方位摄像头,对通用/特定模特进行打点扫描(视最终需求可进行全身或局部扫描),采集其说话时的唇动、表情、面部肌肉变化细节、姿态等数据 量子位硬科技深度产业报告—虚拟数字人 计算驱动型技术流程 2. 形象建模,进行绑定 设计所需的模型,或基于特定真人进行高还原度建模。进行关键点绑定。关键点绑定的数量及位置影响最终效果。当需要基于真人照片生成虚拟内容时,一类做法是将通用的人脸模型迁移至该真人照片上,形成虚拟形象,实质为表情迁移。另一类则是生成动漫类效果,基于预先设置的形象分类算法,将真人照片中的眼型、发型等元素进行分类,并与预先设置的动漫元素进行匹配,最终生成动漫式的虚拟形象。 3. 训练各类驱动模型:决定最终效果的核心步骤 利用深度学习,学习模特语音、唇形、表情参数间的潜在映射关系,形成各自的驱动模型与驱动方式。充足的驱动关键点配合以精度较高的驱动模型,能够高还原度的复原人脸骨骼和肌肉的细微变化,得到逼真的表情驱动模型。魔珐科技等业界领先的模型可组合出超千种表情效果,并包含眼神驱动。科大讯飞、竹间智能等公司会对语音/文本中的因素进行提取,增加情感驱动模型等。目前为止,大多数厂商的驱动模型大多是语音-唇形,语音-驱动。动作、手势等驱动大多依靠人为现场指令或预设置驱动。对于需对特定真人定制化的数字化虚拟数字人,部分公司会基于在通用驱动模型的基础上,结合少量真人驱动数据训练定制化驱动模型。这种情形可视作预训练模型+小样本学习。 4. 内容制作:基于输入的语音(或由输入文本转化的语音),预测唇动、表情等参数 核心的技术流程是基于输入的语音,或首先基于TTS技术(Text-to-speech,语音合成技术),将输入的本文转化为语音。基于语音,结合第3步得到的驱动模型,并利用生成对抗模型GAN选出最符合现实的图片,推理得到每帧数字人的图片。通过时间戳,将语音和每帧的数字人图片进行结合。 5.进行渲染,生成最终内容。直播时进行实时渲染 为保证在特定场景下能够实现实时低延迟渲染,计算框架的大小、算力供给等技术问题同样会影响到虚拟数字人的最终生成效果 附加步骤: 针对需要进行交互的虚拟数字人,生产商会预先设置有问答库、知识图谱等,并承接入虚拟数字人的对话系统。 当判定技术中的核心要素时,我们需要回归到虚拟数字人的核心价值,也即前面所提及的“拟人化”,这需要虚拟数字人在形象或交互上具有技术优势。在技术层面主要体现为以下三点。 NLP交互技术影响交互体验 CG建模/图像迁移技术影响外观呈现 CV等深度学习模型影响驱动效果 受数据量、计算框架、关键特征点等因素深刻影响。能否呈现自然的面部表情变动、肢体变动等,在极大程度上取决于语音驱动的深度模型效果。除此之外,能否对情感等因素进行特别设计,同样会产生重要影响。 体现为虚拟数字人外观的拟人程度。国内外在该项上的技术差异,部分导致了目前国内外玩家主要专注于不同的细分场景和发展路径 以对话能力为核心。继文本对话助手、语音AI助手后,该技术继续在虚拟数字人中发挥核心作用,可以视作为虚拟数字人的大脑。在AI交互助手方面已有理想成效,如小冰等,公司能够为其添加较好的通用式互动能力。追一科技等公司则通过知识图谱、业务问答库、对话型工程引擎等增强虚拟数字人的业务互动能力。 值得一提的是,2021年,Fable Studio的新虚拟数字人Charlie and Deck背后将有GPT-3支撑,生成类语言模型的加入有望显著提升虚拟个人助手的日常交互能力,这也将是GPT-3实现商业化的全新途径。 量子位硬科技深度产业报告—虚拟数字人 行业现状 2.1 市场规模 基于国内外多家虚拟数字人厂商的业务,本报告将虚拟数字人按照其产业应用划分为两类:服务型虚拟数字人和身份型虚拟数字人。 经过测算,我们认为,在2030年,我国虚拟数字人整体市场规模将达到2700亿。其中,得益于虚拟IP的巨大潜力,以及虚拟第二分身的起步,身份型虚拟数字人将占据主导地位,约1750亿,并逐步成为Metaverse中的重要一环。服务型虚拟数字人则相对稳定发展,多模态AI助手仍有待进一步发展,多种对话式服务升级至虚拟数字人形态,总规模超过950亿。 量子位硬科技深度产业报告—虚拟数字人 理想的市场规模体现在虚拟数字人这一市场行业天花板高,实现路径明确,且已出现了有相当竞争力的技术公司。在各行业近两年开始意识到其技术可行性和商业价值后,行业将快速进入高速发展期。 首先,作为多模态升级的代表技术,虚拟数字人的应用场景众多,可广泛与各行业领域相结合,变现路径和市场潜力明确。其中虚拟直播、虚拟偶像已得到明确的商业价值验证。而虚拟分身生成等场景也已得到了资本和相关产业方的认可。 其次,大多数国内玩家为综合实力较强,发展成熟的AI科技公司,在客户积累、技术实力、销售渠道、资金供给等方面较为可靠,行业预计可直接进入平稳发展期。 最后,在多家业内代表公司看来,虚拟数字人作为Metaverse 主要的交互载体,具有明确的巨大增长潜力,并基于NFT、VR等有理想的延展空间。行业天花板高,能够维持长期和衍生发展。 2.2 行业发展阶段 火山引擎、追一科技等公司基于自身观察,认为虚拟数字人行业目前仍处于孵化培育的阶段。相芯科技基于XR行业技术成熟度曲线,认为虚拟化身技术在未来2-5年内将进入稳步爬坡期。 而在行业的长期发展方面,可以依据面向市场、解决方案及产品成熟度、基础设施及衍生产业进