AI智能总结
编制声明 本白皮书版权属于人工智能产业发展联盟(AIIA)-得意音通人工智能声纹技术联合实验室和清华大学人工智能研究院听觉智能研究中心。文中部分数据来源于网络公开资料整理,转载、摘编或利用其它方式使用本白皮书文字或观点的,应注明来源。违反上述声明者,编者将追究其相关法律责任, 主编 郑方孙明俊 编写组 成王钰李钰韩程星亮徐明星王蕴韬曹峰李苏宋丹峰杨悦倪鸣陈柳村周鑫鄂晓钧肖永明向银杉高锯刘彦全 序言 自上世纪四五十年代以来,经过长时间的探索实践,声纹识别技术终于逐渐走向成熟,迎来了历史上最佳的应用发展期。这一改变,首先发生在中国。 2018年可以说是声纹识别迈向产业化的分水岭,其标志性事件莫过于中国人民银行颁布的《移动金融基于声纹识别的安全应用技术规范》。这是我国金融行业第一个生物识别技术标准,其影响之深之广,远超我们的预期。它不仅为声纹识别技术进入金融领域突被了标准难题,也为多年来一直坚持初心的业界同仁注入了一针强心剂,2018年因此被称之为“声纹元年"。 声纹开始热了,产业态势已成,孤军奋战的日子一去不复返。再好的科研成果,只有从象牙塔里走出来,放到实践中去检验,才能发光发热,造福社会。作为行业老兵,我们感到欣慰,因为这证明了我们当初的判断和坚持是正确的。但我们同样也有担心,如果一个刚发芽的美好事物,被鱼龙混杂的信息误导、被不切实际的想象捧杀,对它的发展有害无益。 声纹识别是一项简单、优雅、安全的技术。我们希望这个朝气蓬勃的产业从一开始,就走上一条良性健康发展的道路,在开启新希望的同时,避免重蹈某些产业的覆辙,这就是我们为什么发布白皮书的初衷。 这份报告名为白皮书,实际上是从技术、产业、场景、企业、政策、资本等层面,根据可获得的一些公开资料,对声纹识别学术研究和产业发展脉络微了一份梳理,力求为广大研究人员、工程师、创业者、投资商和媒体人们提供一份快速了解行业概貌的“导览地图”。 们力求尽量客就的反映这一新生行业的总体态势,但还读不上多么全面和深入,里面提到的有些欢点,也可能有不对或不要之处,需要交给市场和时间去检验。 感谢AIIA对发布这份报告给予的支持。初试筛声,难免挂一漏万,还请业界朋友和广大读者多包涵,多指正。 是为序。 郑方清华大学人工智能研究院听觉智能研究中心主任得意普迪信息技术研究院院长 目录 声纹识别发展背景和环境分析 1.1.移动万物互联,生物特征识别迅速抢占市场。1.2.人脸指纹漏洞频发,个人隐私泄露风险加剧1.3.系列政策法规出台,国家加快AI产业引导,1.4.生物识别从生理特征走向行为特征,1.5.语音交互从千人一面向个性化进阶 声纹识别技术发展现状, 2.1,声纹是一种特殊的行为特征。2.2.声纹识别技术的分类逻辑2.3.声纹识别技术进入商用92.4.行业专利申请量激增,11 3.声纹识别产业发展现状13 3.1.市场规模:想象空间巨大,规模将超千亿133.2.竞争格局:赛道选手增加,专业厂商领跑,133.3.市场份额:外企入华分美,中企绝对占优133.4.技术来源:技术门橙高企,来源高度集中143.5.资本现状:融资进度提速,行业风口可期153.6.公司案例:得意音通16 4.主要应用领域及场景17 4.1.国家公共安全4.2.泛金融.184.3.社会保险,184.4.智能安防及个性化语音交互194.5.典型应用案例:金融领域194.5.1.中国建设银行.194.5.2.贵阳银行244.5.3,西安银行4.5.4.浦东发展银行25 27标准化建设 5.1.技术基础标准化275.2.金融应用标准化295.3.正在进行的标准化.. 30 6.技术挑战与发展趋势32 6.1.技术挑战。, 326.2.发展趋势。35 附一:图表索引.37 附二:参考文献,38 1.声纹识别发展背景和环境分析 1.1.移动方物互联,生物特征识别迅速抢占市场 据2019年中国互联网络信息中心发布的中国互联网络发展状况统计报告》显示,截至2018年12月,中国网民的规模达到了8.29亿,全年新增网民的数量是5653万,互联网的普及率是59.6%,较前年底提升了3.8个百分点;中国手机网民的规模达到了8.17亿,全年新增手机网民的数量是6433万。截止去年12月,我国即时通信用户规模达7.92亿,网络新闻用户规模达6.75亿,网络购物用户规模达6.10亿,网上外卖用户规模达4.06亿,网络支付用户规模达6.00亿,网络视频用户规模达6.12亿,短视频用户规模达6.48亿。 以争机为中心的智能设备,成为“方物互联”的基础。移动支付、车联网、智能家居、智能安防等智能化应用场景多方位促进国人“衣食住行"体验升级。移动互联网服务场景不断丰富,应用场景日趋复杂,网络身份认证作为防护网络资产的第一道关口,在万物联网时代有着举足轻重的作用, 生物识别技术作为新一代人工智能的重要领域,借助人体生理特征或行为特征进行身份识别。近年来得益于云计算、大数据、物联网、深度学习等信息技术的快速发展,生物识别技术在基础理论、算法模型、创新应用、软件支持等方面不断取得突破。 研与投资预测分析报告》显示,2013年全球生物识别市场的规模达到98亿美元。2016年生物识别技术行业的市场规模在150亿美元左右,到2021年这一数值将增加至305亿美元。2002至2015年,国内生物识别市场的年复合增长率达到50%,2016年生物识别市场规模达到120亿元左右。预计到2021年,中国生物识别行业的市场规模将突破340亿元人民币。 1.2.人脸指纹漏洞频发,个人隐私泄露风险加剧 人险识别安全漏洞在2017年的“3·15”晚会上首次噪光,凭借一张观众的自拍照成功“换脸”破解手机人脸识别系统。 >假体攻击相关的安全漏洞:无效的活体检测 雷锋网:盗刷28万,某支付平台“人脸识别"现重大漏洞 https:/www.leiphone.com/news/201801/UfmGiSEhFiSVWBXo.html 》无意图检测带来的安全风险:“被指纹”和“被人脸” 风凰网科技:最担心的事发生了!男子睡梦中被人用手机刷脸,醒来卡里一万多元没了! http://tech.ifeng.com/a/20190407/45588746_0.shtml 半岛都市报:女子网上交友被坑、熟睡中手机被男友盗制20万 http:/news.banda0.cn/newshtml/201807/20180703/news_20180703_2842126.shtml 比起数据在传输和认证过程中的安全漏洞,后台的生物特征数据一且被盗,大量最带有唯一性的生物特征数据被盗取,给用户带来的风险将会更大。 中国支付清算协会2018年移动支付用户调研报告显示,“个人信息泄露是用户使用移动支付过程中最常遇到的安全问题”。在移动支付用户实际使用行为分析中,“个人信息被泄露”高居第一,占比高达81.0%,高于第二位的“手机扫描到伪假条码”70.1% 1.3.系列政策法规出台,国家加快AI产业引导 2017年6月,《中华人民共和国网络安全法》正式施行,提出实施网络可信身份战略,支持研究开发安全、方便的电子身份认证技术,推动不同电子身份认证之间的互认;明确将个人生物识别信息纳入个人信息范畴进行规范管理。 2017年7月,国务院印发《新一代人工智能发展规划",从建立关键共性技术体系、探索行业创新应用等方面对生物识别技术发展提出了重点任务。 2017年12月,工信部印发促进新一代人工智能产业发展三年行动计划(2018-2020年)》,智能身份识别系统、智能语音交互系统同时被列入率先取得突破的8大重点领域。 2018年9月,第十三届全国人大常委会将《个人信息保护法》列入本届立 法规划。人工智能和大数据时代的个人信息保护即将迎来专门立法。 1.4.生物识别从生理特征走向行为特征 生物特征识别最大的共性是唯一性。人的生理特征都存在唯一性,每个人都有独一无二的脸、指纹、虹膜等。由于每个人的生物特征具有与其他人不同的唯一性和在一定时期内不变的稳定性,所以利用生物识别技术进行身份认定相对其他身份认证技术是安全且准确的。但也正是由于生理特征的不可撤销性,生物特征信息一且被泄露、大量的带有唯一性的生物特征数据被盗取,基于生理特征的身份识别系统将彻底前溃,这也是生理特征识别方式的真正“痛点”。 资料来源:中国人民银行移动金融基于声纹识别的安全应用技术规范》标准编制组 1.5.语音交互从千人一面向个性化进阶 2017可以看做智能语音交互元年,各品牌厂商打造的智能音箱纷纷上市。2018年语音交互落地突然加速,产品从智能音箱扩展到其他品类,如电视盒子、闹钟、灯、智能马桶等。未来,语音交互将迎来更多成长机会和更大的发展空间。在由全球最大中文IT社区CSDN组织编撰的《2018中国人工智能产业路线图》中,将语音交互划分为三种阶段: >L1阶段:能以极高的准确率,在典型环境下响应用户的语音输入: >L2阶段:能以极高的准确率识别出交互的当事人和环境,然后进行个性化的交互; 》L3阶段:只要有数据,语音交互系统的能力就可以无边界扩展(包括个性和能力)。 在L2阶段体现的是个性化,语音交互不再停留在千人一面的固定化模式中,而是实现千人千面的个性化交互体验。 注:以上段落援引自声智科技李智勇语音交互的进阶之路:层级、技术与赖覆性》 2.声纹识别技术发展现状 2.1.声纹是一种特殊的行为特征 声纹,是对语音申所蕴含的、能表征和标识说人的语音特征,以及基于这些特征(参数)所建立的语音模型的总称,而声纹识别是根据待识别语音的声纹特征识别该段语音所对应的说话人的过程。与指纹类似,每个人在说话过程中所蕴含的语音特征和发音习惯几乎是独一无二的,即使是模仿,也难以改变说话者最本质的发音特性和声道特征。由于声音的特殊性,声纹识别与其他行为特征相比,又兼具生理特性。 声纹识别和语音识别在原理上一样,都是通过对采集到的语音信号进行分析和处理,提取相应的特征或建立相应的模型,然后据此微出判断。但二者的根本目的,提取的特征、建立的模型是不一样的。声纹识别试图寻找的是区别每个人的个性特征,而语音识别则是侧重于对话者所表述的内容进行识别。 简而言之,语音识别(SpeechRecognition)关心说的什么(What),声纹人识别(SpeakerRecognition)。 声纹特征以声音为载体,具有以下特点: 1)交互性。声音是唯一可双向传遵信号的生物特征,既可以接收信息,也可以发出信息,实现交互。 2)便捷性。声音是唯一周边无死角的生物特征,可以实现非接触式采集,方便使用: 3)变化性。声音是高可变性与唯一性的完美统一。没有两个声音是完全一样的,但里面所蕴含的信息,比如你是谁、你的年龄、你的情感等信息却都是唯一确定的。这种高可变性和唯一性的完美绕一使得语音信号白身就具备了很强的防攻击能力。 4)丰富性。声音有“形简意丰"的特点,它虽然只是一个一维信号,但是蕴含若丰富的信息。在相同一段语音中,除了包含说话人信息外,还包含内容、语种、性别、情绪、年龄,甚至包含出生地、身体健康状况等丰富的信息 声纹识别作为生物特征识别技术中的一种,作为一种身份认证手段,具有如 下优势: 1)不怕丢失。不同于指纹、虹膜、人脸等静态的生理特征,声纹作为一种动态的行为特征,不容易丢失,可以做到“失声(音)不失身(份)" 2)难以伪造。声纹蕴含于人的语音当中,而语音是千变万化的。即便人两次读相同的内容,也不可能发出完全相同的声音。正是声纹这种"蕴不变于千变万化之中"的特性,使得声纹特征更加深层、难以琢磨,伪造起来也更为困难,因而认证强度更高、更安全。 3)隐私性弱。俗话说“身体发肤受之父母",在一般的大众认知中,人们在很多场合下往往不愿意被拍照或者按手印,但采集一段随机跟读的声音,对于大众更加容易接受。 2.2.声纹识别技术的分类逻辑 声纹识别技术