您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[天津大学&慧言科技]:“海河·谛听”言语交互大模型及其在身份认证领域的应用探讨 - 发现报告

“海河·谛听”言语交互大模型及其在身份认证领域的应用探讨

“海河·谛听”言语交互大模型及其在身份认证领域的应用探讨

天津大学/慧言科技王龙标 言语交互:人类最自然的交互方式 言语是人类最基本和最重要的交流方式它不仅能够传递字面信息,还能够传达言外之意,并影响他人的情绪、态度和行为,从而实现各种社会目的。 言语交互的主要挑战 言语包含语言、韵律、情感和说话人等信息 目前的语言大模型只利用语言(文本)信息,导致言语交互系统无法做到意图的深度理解。 语音模型: 通用大模型: 痛点1 痛点2 模型多、维护难、效果差 行业效果差、部署成本高 理解能力不足 多语言交互困难 打造国际领先的言语交互意图理解大模型 借鉴神兽“谛听”可听人心的寓意而命名。透过声音洞察内心,透过言语理解意图。 始终“以人的机理为蓝本”,将言语信息与语言学、心理学和脑科神经科学相结合,以大模型为基础实现言语意图的深度理解。 支持NVIDIA架构和国产化架构。 研发资源&团队架构 基于天津市人工智能计算中心打造自主可控言语交互意图理解大模型 天大算法团队:3位导师、5名博士学生、7名硕士学生慧言科技算法/工程化团队:数名资深算法工程师 通用语音大模型算法团队 团队指导:王晓宝天大助理教授 技术总监:王龙标天大教授/国家人才/慧言CEO 总负责人:党建武天大教授/国家人才/慧言CSO 硕士学生 博士学生 崔辰瑞——Wav2vec 2.0框架迁移李津——HuBERT框架迁移舒钰淳——WavLM框架迁移芦皓宇——语音识别下游任务微调吴晟——语音情感下游任务微调朱晓——电话信道数据模拟顾铭扬——语音特征提取 王天锐——解耦式自监督预训练贡诚/王天锐——语音生成大模型林羽钦——语音识别刘佳星——语音情感识别刘猛——声纹识别 新型通用语音预训练框架 基于ModelArts的语音预训练框架 “海河·谛听”大模型技术路线 打 造 国 内 领 先 的通用语音预训练大模型 基于ModelAr ts的通用语音预训练大模型概要 •项 目 资 源 •2 2×8×A s c e n d 9 1 0( 3 2 G B )•1 2 8 T磁 盘 空 间•运 行 环 境 : 云 上9 1 0训 练云 上9 1 0推 理M i n d S p o r e 1 . 7 •遇 到 并 解 决 的 难 题 •P y t o r c h框 架 转M i n d S p o r e框 架•语 音 数 据 长 度 不 定 的 问 题•与M i n d S p o r e静 态 图 训 练 策 略 友 好 度 较 差•混 合 精 度 训 练 梯 度 溢 出•. . . . . . 基于解耦思路的语音预训练大模型结果 可以大幅提升声纹识别性能,并在其他任务上保持优越的效果。 对于说话人识别任务(SID),只有指定的解耦层(4)起作用。 “海河·谛听”语音生成大模型技术路线 打 造 国 内 领 先 的通用语音生成大模型 语音生成大模型 语音生成个性化定制,让声音复刻简单快捷。 面向操纵伪造检测的安全说话人确认探讨 说话人确认&伪造检测 •语音合成技术给人们的生活带来便利的同时,也会被犯罪分子用来伪造目标说话人的语音实施攻击和诈骗,对经济安全、社会安全、国家安全带来一定的风险和威胁。 •视听多模态有助于实现高精度的说话人与伪造检测结果。 基于多模态的说话人确认&伪造检测 AVLip:跨模态协同学习驱动的视听说话人确认 •AVLip系统利用交叉模态注意力机制来增强特征表示,从而实现有效的模态间对齐和信息融合。 •AVLip框架采用了音视伪孪生结构,该结构设计用于促进听觉和视觉模态之间的信息交换和相互增强。 SyncLip:跨模态语义与身份一致性建模 SyncLip:框架通过独立视觉音频编码器和跨模态解码器融合特征,用于语义一致性检测以识别篡改视频。 M. Liu et al.,“Cross-Modal Semantic Consistency Modeling on Speech Tempering Detection,”submitted toIEEE SPL. 跨模态语义与身份一致性结果 M. Liu et al.,“Cross-Modal Semantic Consistency Modeling on Speech Tempering Detection,”submitted toIEEE SPL.