如何通过仪器辨别某个人的声音一个人的声音是否有自己固定的特征,像手纹一样,全世界不重样,手否可以通过某仪器设置了固定参数,就只能接受某一人的声音
来源:学生作业帮助网 编辑:作业帮 时间:2024/11/17 22:30:05
如何通过仪器辨别某个人的声音一个人的声音是否有自己固定的特征,像手纹一样,全世界不重样,手否可以通过某仪器设置了固定参数,就只能接受某一人的声音
如何通过仪器辨别某个人的声音
一个人的声音是否有自己固定的特征,像手纹一样,全世界不重样,手否可以通过某仪器设置了固定参数,就只能接受某一人的声音
如何通过仪器辨别某个人的声音一个人的声音是否有自己固定的特征,像手纹一样,全世界不重样,手否可以通过某仪器设置了固定参数,就只能接受某一人的声音
所谓声纹(Voiceprint),是用电声学仪器显示的携带言语信息的声波频谱.
人类语言的产生是人体语言中枢与发音器官之间一个复杂的生理物理过程,人在讲话时使用的发声器官--舌、牙齿、喉头、肺、鼻腔在尺寸和形态方面每个人的差异很大,所以任何两个人的声纹图谱都有差异.每个人的语音声学特征既有相对稳定性,又有变异性,不是绝对的、一成不变的.这种变异可来自生理、病理、心理、模拟、伪装,也与环境干扰有关.尽管如此,由于每个人的发音器官都不尽相同,因此在一般情况下,人们仍能区别不同的人的声音或判断是否是同一人的声音.
声纹识别及其应用
声纹识别的应用有一些缺点,比如同一个人的声音具有易变性,易受身体状况、年龄、情绪等的影响;比如不同的麦克风和信道对识别性能有影响;比如环境噪音对识别有干扰;又比如混合说话人的情形下人的声纹特征不易提取;……等等.尽管如此,与其他生物特征相比,声纹识别的应用有一些特殊的优势:(1)蕴含声纹特征的语音获取方便、自然,声纹提取可在不知不觉中完成,因此使用者的接受程度也高;(2)获取语音的识别成本低廉,使用简单,一个麦克风即可,在使用通讯设备时更无需额外的录音设备;(3)适合远程身份确认,只需要一个麦克风或电话、手机就可以通过网路(通讯网络或互联网络)实现远程登录;(4)声纹辨认和确认的算法复杂度低;(5)配合一些其他措施,如通过语音识别进行内容鉴别等,可以提高准确率;……等等.这些优势使得声纹识别的应用越来越收到系统开发者和用户青睐,声纹识别的世界市场占有率15.8%,仅次于手指和手的生物特征识别,并有不断上升的趋势.
1.声纹识别的分类
声纹识别(Voiceprint Recognition, VPR),也称为说话人识别(Speaker Recognition),有两类,即说话人辨认(Speaker Identification)和说话人确认(Speaker Verification).前者用以判断某段语音是若干人中的哪一个所说的,是“多选一”问题;而后者用以确认某段语音是否是指定的某个人所说的,是“一对一判别”问题.不同的任务和应用会使用不同的声纹识别技术,如缩小刑侦范围时可能需要辨认技术,而银行交易时则需要确认技术.不管是辨认还是确认,都需要先对说话人的声纹进行建模,这就是所谓的“训练”或“学习”过程.
从另一方面,声纹识别有文本相关的(Text-Dependent)和文本无关的(Text-Independent)两种.与文本有关的声纹识别系统要求用户按照规定的内容发音,每个人的声纹模型逐个被精确地建立,而识别时也必须按规定的内容发音,因此可以达到较好的识别效果,但系统需要用户配合,如果用户的发音与规定的内容不符合,则无法正确识别该用户.而与文本无关的识别系统则不规定说话人的发音内容,模型建立相对困难,但用户使用方便,可应用范围较宽.根据特定的任务和应用,两种是有不同的应用范围的.比如,在银行交易时可以使用文本相关的声纹识别,因为用户自己进行交易时是愿意配合的;而在刑侦或侦听应用中则无法使用文本相关的声纹识别,因为你无法要求犯罪嫌疑人或被侦听的人配合.
在说话人辨认方面,根据待识别的说话人是否在注册的说话人集合内,说话人辨认可以分为开集(open-set)辨认和闭集(close-set)辨认.前者假定待识别说话人可以在集合外,而后者假定待识别说话人在集合内.显然,开集辨认需要有一个对集外说话人的“拒识问题”,而且闭集辨认的结果要好于开集辨认结果.本质上讲,说话人确认和开集说话人辨认都需要用到拒识技术,为了达到很好的拒识效果,通常需要训练一个假冒者模型或背景模型,以便拒识时有可资比较的对象,阈值容易选定.而建立背景模型的好坏直接影响到拒识甚至声纹识别的性能.一个好的背景模型,往往需要通过预先采集好的若干说话人的数据,通过某种算法去建立.
如果技术达到一定的水平,可以把文本相关识别并入文本无关识别,把闭集辨认并入开集辨认,从而提供更为方便的使用方法.比如北京得意音通技术有限公司的“得意”身份证就是文本无关的、开集方式的说话人辨认和确认,“得意”身份证SDK还提供建立背景模型的工具.
2.声纹识别的关键问题
声纹识别可以说有两个关键问题,一是特征提取,二是模式匹配(模式识别).
特征提取的任务是提取并选择对说话人的声纹具有可分性强、稳定性高等特性的声学或语言特征.与语音识别不同,声纹识别的特征必须是“个性化”特征,而说话人识别的特征对说话人来讲必须是“共性特征”.虽然目前大部分声纹识别系统用的都是声学层面的特征,但是表征一个人特点的特征应该是多层面的,包括:(1)与人类的发音机制的解剖学结构有关的声学特征(如频谱、倒频谱、共振峰、基音、反射系数等等)、鼻音、带深呼吸音、沙哑音、笑声等;(2)受社会经济状况、受教育水平、出生地等影响的语义、修辞、发音、言语习惯等;(3)个人特点或受父母影响的韵律、节奏、速度、语调、音量等特征.从利用数学方法可以建模的角度出发,声纹自动识别模型目前可以使用的特征包括:(1)声学特征(倒频谱);(2)词法特征(说话人相关的词n-gram,音素n-gram);(3)韵律特征(利用n-gram描述的基音和能量“姿势”);(4)语种、方言和口音信息;(5)通道信息(使用何种通道);等等.
根据不同的任务需求,声纹识别还面临一个特征选择或特征选用的问题.例如,对“信道”信息,在刑侦应用上,希望不用,也就是说希望弱化信道对说话人识别的影响,因为我们希望不管说话人用什么信道系统它都可以辨认出来;而在银行交易上,希望用信道信息,即希望信道对说话人识别有较大影响,从而可以剔除录音、模仿等带来的影响.
总之,较好的特征,应该能够有效地区分不同的说话人,但又能在同一说话人语音发生变化时保持相对的稳定;不易被他人模仿或能够较好地解决被他人模仿问题;具有较好的抗噪性能;…….当然,这些问题也可以通过模型方法去解决.
对于模式识别,有以下几大类方法:
(1)模板匹配方法:利用动态时间弯折(DTW)以对准训练和测试特征序列,主要用于固定词组的应用(通常为文本相关任务);
(2)最近邻方法:训练时保留所有特征矢量,识别时对每个矢量都找到训练矢量中最近的K个,据此进行识别,通常模型存储和相似计算的量都很大;
(3)神经网络方法:有很多种形式,如多层感知、径向基函数(RBF)等,可以显式训练以区分说话人和其背景说话人,其训练量很大,且模型的可推广性不好;
(4)隐式马尔可夫模型(HMM)方法:通常使用单状态的HMM,或高斯混合模型(GMM),是比较流行的方法,效果比较好;
(5)VQ聚类方法(如LBG):效果比较好,算法复杂度也不高,和HMM方法配合起来更可以收到更好的效果;
(6)多项式分类器方法:有较高的精度,但模型存储和计算量都比较大;
(7)……
声纹识别需要解决的关键问题还有很多,诸如:短话音问题,能否用很短的语音进行模型训练,而且用很短的时间进行识别,这主要是声音不易获取的应用所需求的;声音模仿(或放录音)问题,要有效地区分开模仿声音(录音)和真正的声音;多说话人情况下目标说话人的有效检出;消除或减弱声音变化(不同语言、内容、方式、身体状况、时间、年龄等)带来的影响;消除信道差异和背景噪音带来的影响;……此时需要用到其他一些技术来辅助完成,如去噪、自适应等技术.
对说话人确认,还面临一个两难选择问题.通常,表征说话人确认系统性能的两个重要参数是错误拒绝率和错误接受率,前者是拒绝真正说话人而造成的错误,后者是接受集外说话人而造成的错误,二者与阈值的设定相关.在现有的技术水平下,两者无法同时达到最小,需要调整阈值来满足不同应用的需求,比如在需要“易用性”的情况下,可以让错误拒绝率低一些,此时错误接受率会增加,从而安全性降低;在对“安全性”要求高的情况下,可以让错误接受率低一些,此时错误拒绝率会增加,从而易用性降低.前者可以概括为“宁错勿漏”,而后者可以“宁漏勿错”.我们把真正阈值的调整称为“操作点”调整.好的系统应该允许对操作点的自由调整.
3.声纹识别的应用
声纹识别可以应用的范围很宽,可以说声纹识别几乎可以应用到人们日常生活的各个角落.比如下面举几个例子.
(1)信息领域.比如在自动总机系统中,把“得意”身份证之声纹辨认(www.d-ear.com/Technologies&Products/Products-d-Ear%20ID_ch.htm)和“得意”关键词检出器(http://www.d-ear.com/Technologies&Products/Products-d-Ear%20Word-Spotter_ch)结合起来,可以在姓名自动拨号的同时向受话方提供主叫方的身份信息.前者用于身份认证,后者用于内容认证.同样,声纹识别技术可以在呼叫中心(Call Center)应用中为注册的常客户提供友好的个性化服务.
(2)银行、证券.鉴于密码的安全性不高,可以用声纹识别技术对电话银行、远程炒股等业务中的用户身份进行确认,为了提供安全性,还可以采取一些其他措施,如密码和声纹双保险,如随机提示文本用文本相关的声纹识别技术进行身份确认(随机提示文本保证无法用事先录好的音去假冒),甚至可以把交易时的声音录下来以备查询.
(3)公安司法.对于各种电话勒索、绑架、电话人身攻击等案件,声纹辨认技术可以在一段录音中查找出嫌疑人或缩小侦察范围;声纹确认技术还可以在法庭上提供身份确认的旁证.
(4)军队和国防.声纹辨认技术可以察觉电话交谈过程中是否有关键说话人出现,继而对交谈的内容进行跟踪(战场环境监听);在通过电话发出军事指令时,可以对发出命令的人的身份进行确认(敌我指战员鉴别).目前该技术在国外军事方面已经有所应用,据报道,迫降在我国海南机场的美军EP-3侦察机中就载有类似的声纹识别侦听模块.
(5)保安和证件防伪.如机密场所的门禁系统.又如声纹识别确认可用于信用卡、银行自动取款机、门、车的钥匙卡、授权使用的电脑、声纹锁以及特殊通道口的身份卡,把声纹存在卡上,在需要时,持卡者只要将卡插入专用机的插口上,通过一个传声器读出事先已储存的暗码,同时仪器接收持卡者发出的声音,然后进行分析比较,从而完成身份确认.同样可以把含有某人声纹特征的芯片嵌入到证件之中,通过上面所述的过程完成证件防伪.