安全智库：郑方博士:以安全为基因,将声纹识别做到极致 2018-1

导语

相信不少人在观看科幻电影时，总会被电影里的那些如刷脸开门、虹膜解锁、指静脉取款、声控汽车等神秘“黑科技”所吸引。随着生物识别技术的不断突破和创新，现如今，这些应用场景已经在大众的生活中逐渐实现，给人们的生活带来了极大的便利。然而，生物识别技术的快速发展带来的安全性和用户隐私问题也引起了一些争议，成了最受公众关注的话题。

近日，清华大学语音和语言技术中心主任、北京得意音通技术有限责任公司董事长郑方博士，就声纹识别技术的应用、挑战和安全性等问题，接受了安全智库记者的专访。

问

郑老师您好，非常高兴您今天能接受我们的专访！声纹识别技术在郑老师团队的不懈努力下已经取得长足进步。我有几个问题想请教您，首先声纹识别技术在身份认证领域的安全性如何？有哪些核心优势？

答

我先简单介绍一下生物识别技术，就是通过计算机运算能力和生物统计学方法，利用人体固有的生理特征（包括人脸、指纹、虹膜、掌纹、指静脉等）或行为特征（声纹、签名、步态/手势、键盘敲击等）来进行个人身份辨认或确认的技术。

我从88年进入语音研究领域，今年就满30年了，我们很早就重视了生物特征及其本身的安全性问题。与其他生物识别技术相比，在安全性上，其实声纹的唯一性和准确性是很高的，而且不易伪造，最具有防攻击性，也最不怕丢。人脸、指纹等是静态的生理特征，特点是相对不变。现在的人工智能技术发展很快，你只要是不变的东西，我就能够想出办法模拟出来。作为行为特征的语音就不同了，举例来说，即使只考虑汉语，常用汉字就超过五千多，可以组合成不同的句子，变化很多；这么多的组合，要都把它们的发音录下来，实在太难。现在对声纹的攻击大概有三类：模仿、语音合成或语音转换、录音重放。这三种方式比较常见，我们都能防得住。我们有一项专利技术，做了好几年的研究和开发才把它成功做出来。用在产品上现已具有四重防攻击手段，包括动态密码语音、录音重放检测、用户自定义密码和多特征+多活体检测。

今年10月份在上海有一场“极棒”国际安全极客大赛，其中的声纹攻防赛是用语音合成来模拟合法声音实现对设备的攻击，我受邀作为主评委。就讲我们的第二重防攻击手段录音检测或者第三重防攻击手段用户自定义密码吧，我当时问了好多人，这个功能一放上去，基本上没法攻击，选手都没法破解，比赛就不好看了。所以后来评委们商量后调低了规则门槛。此外，对于语音我们还可以从中检测意图真实性，可以实现证据可追溯，这是都是语音信号所特有的。

除了安全性以外，声纹相对其他生物识别技术还有一个很大的特点，就是它的“低隐私性”。俗话说“身体发肤受之父母”，生理特征往往被视为个人隐私的重要部分。声音却不然，它是可变的，使命就是用来和外界交流，而它的特征（注：即声纹）又是通过算法提取出来的，因此人们一般不担心隐私问题。即使你说的内容是“悄悄话“，如果采用我们的声纹识别方案，就连你说的内容都是系统随机分配的，完全不涉及个人隐私。也因此，声纹不具备“不可撤销性”，它最“不怕丢”。

问

声纹识别会像指纹识别、人脸识别一样普及吗，它的商用前景如何？

答

指纹识别与人脸识别的推广都得益于其相关硬件设施的普及，而声纹识别具有更好的双重便宜性。便（pian2）宜是指成本超低，麦克风如此普及的今天，在手机和电脑上基本是标配，0额外成本。（指纹、虹膜、掌纹都不具备此优势）。便（bian4）宜是指语言是人类交流最自然的方式，且人与麦克风无需接触，跨平台无障碍，数据采集方便。因此声纹识别是最为经济、可靠、简便和安全的身份识别方式。我相信声纹识别技术广泛应用于每个人身边的那一天并不遥远。

我很看好声纹识别技术的商用前景。首先是在金融领域，声纹识别已经进入实用化阶段。目前我们已经和中国建设银行、兰州银行、贵州银行、兴业银行、中国银联、中国金融认证中心等开展合作，并且在建行的手机客户端实施声纹验证。实践证明，手机银行的声纹识别一推出，用户数就呈指数级增长；在社保领域，江苏、河北多地均已开展合作，贵州更是将在全省试点推广；汽车是另一个领域，北汽已与我们合作开展车载声纹项目，利用声纹识别和语音识别技术为驾驶员提供便捷的人车交互，有效提高车辆安全性能，很快就要做前装；在酒店领域，我们正和万科泊寓合作。通过声纹识别，快速办理身份认证、酒店预定、入住和离店手续，所以以后入住酒店都不用带身份证，也不用钱，还不用排队，拿手机到前台扫一下二维码然后念一下动态密码就行了。此外，还可以应用于电子政务、流动人口管理、声纹考勤、声纹点名、手机声纹锁、声纹门禁系统、社区矫正系统等等。

问

您刚才也提到声纹识别有一定的局限性，面临的挑战有哪些？

答

首先是用户习惯角度，任何一种新技术在应用初期往往会存在信任度的问题。而且不像指纹、人脸是有形的，人们相对更容易接受和认可。声音是看不见，摸不着的，用户接受起来就存在一些困惑，觉得语音每天都在说，有那么大的准确性和唯一性吗？而且他觉得声音老变，每次听到即使是同一个人说同一句话，不同时候说的都不一样，凭感觉他觉得这个东西应该不靠谱。因为没有用过，也没人给他解惑。看不见摸不着，没关系，我们能够用数学模型在整个的特征空间里面去刻画它。正因为声音可变反而不容易模仿，只要中间有一处被模仿，我们就可以检测到这个变化，马上就知道是假的了，所以安全性反而更高了。其次是技术角度，会受到特定领域、特定应用等局限性的影响。出于多重保险考虑，一些高安全等级要求的情形可以采用多特征识别技术融合的方法进行组合认证。

问

在今年的世界互联网大会上，您首次提出的“无监督身份认证”概念引起了业界广泛关注，您能否介绍一下？

答

随着移动互联网和物联网技术的快速发展，机器越来越多地成为人类活动场景和交往空间里的“参与者”和“把关人”。所谓无监督，顾名思义就是指“无法监督”或“无人监督”，包括了部分物理空间和整个网络空间，如果不能在无监督状态下解决好身份认证问题，构建网络空间命运共同体便无从谈起。试想，当你不能分辨在网络那一端的，究竟是一个人，一条狗，还是一个AI代理程序时，社会将会怎样？

“无监督身份认证”（USIA）技术，正是通过解决“人证一致性”问题保障网络空间触达用户时“最后一厘米”安全的关键所在。而在无监督情况下，单单通过口令（What You Know）和/或介质（What You Have）都已无法很好解决身份认证问题，依赖生物特征识别技术“自己证明自己”（Who You Are）已经越来越成为人们的共识。

问

2017年12月25日，全国首张“微信身份证”在广州签发，您对“网证”怎么看？

答

总体来讲，我对这个事情的看法是正面的，只是没想到来的这么快。这是一个很好的事情，从咱们国家角度来讲，我们在这一领域走在了前列，但是我也觉得它仍有改进空间，距离真正的无监督场景下的身份认证，还有不少路要走。

人的身份，其实是时间的连续，而不是一个时间的切片。

目前做的东西，往往是把身份作为一个静态的时间切片，就是按照时间轴，砍一刀，这个地方就是它（注：指身份）了。但真实世界里的身份其实是一个特定时间的连续数据集，这才构成你真正的身份认同。另外，就是安全性和隐私的问题。安全主要是因为把手机丢了，别人拿到了怎么办？隐私问题呢主要是商业企业在中间偷偷采集和保存你的生物特征这个事情。还有就是希望能有更多的应用场景，比方说驾驶证怎么弄成电子的？这些问题都是声纹可以弥补和解决的，因此这也是今后声纹识别技术应用的想象空间。

主编点评

郑方博士长期致力于清华大学信息技术研究院的化合态“产学研”渠道建设，既支持了学校的学科发展和人才培养，又支持了科技成果转化和产业化化，取得了很不错的效果。得意音通正是这种化合态“产学研”机制下结出的硕果。现在，得意音通已在声纹识别、语音识别、自然语言理解领域拥有多项完全自主知识产权的专利技术和多个国内第一的产品及服务，是产学研结合的成功典范！通过与郑方博士的交流，刷新了我们对声纹识别的认知。声纹识别技术不仅安全指数更高，成本更低廉，应用场景也更具想象空间。临走前，郑方博士还特意向我们演示了他办公室的声纹识别系统。公司所有的门都是用声纹开锁，已做到声纹全覆盖。就像人脸识别刚出现时一样，新兴事物的普及需要有个过程，但这个过程有时候会来得比想象中要快。让我们一起期待“形简意丰”的语音能有更多的价值被挖掘出来，给人们生活带来更多便利！

安全智库