当前位置:首页 > 发言稿 > 监控本会话流数量已满 [自由会话电话语音监控系统的研究]
 

监控本会话流数量已满 [自由会话电话语音监控系统的研究]

发布时间:2019-06-26 04:04:00 影响了:

  摘 要:本文讨论基于GMM-UBM/SVM的电话语音监控系统。GMM是在识别系统中常用方式,但由于监控语音发话时间短暂,电话-互联网终端及传输线背景噪音大等影响GMM法的识别精度。本研究将发挥GMM的鲁棒性及SVM对小量静态数据具有高分类的优势设计电话语音监控系统。便于比较,本文同时也讨论了量化距离(VQ),加权量化距离(WVQ)及基线系统的识别。在50个目标人训练集,每人发话时间为20秒时,对10秒测试语音提案方法识别率对比于VQ和WVQ法分别提高了20%及16%。
  关键词: 电话语音监控,话者识别, GMM-UBM, SVM
  1 引言
  话者识别是根据人的语音信号来识别人的一种生物认证技术,通过对话者语音信号的分析处理,自动确认话者是否在所记录的说话者集合中,以及进一步确认话者是谁。话者识别技术按其识别任务可以分为:话者辨认(speaker identification)和话者确认(speaker verification)。前者用以判断某段语音是若干人中的哪一个人所说,是“多选一”问题;后者用以确定某段语音是否是某个话者所说的,是“一对一”的问题。 据科学家分析、人类说话的声音能够表现出一个人的生理、情绪、健康程度、教育状况、居住以及所处的社会环境等许多关联的物理现象,为此在科学上常常用声音的声学参数来标记,观察,辨别一个人的生理特征及身份 [1,2,3]。
  语音是信息重要的载体,随着手机,互联网等方便好用的通讯产业的高速发展,利用电话-互联网等通讯手段的犯罪时有发生,且有逐年上升的趋势。比方说电话**,通过电话,网络终端的非法交易,利用电话的政治煽动事件等都是通过语音信息载体以隐藏的方式作案,直接危害公共安全以及人民群众正常的生活和工作。因此语音监控技术在国家,地区及公共安全领域有着重大的应用价值。
  目前像话者自动辨认(Automatic Speaker Identification ASI )等应用系统主要依据于语音中所包含的话者特定的信息来自动辨认-识别一个人的身份。这种技术作为生物认证技术在国内外,安全要害部门的出入注册,侦听嫌疑人通话,出入境管理及敏感内容的监控等方面已得到了广泛地应用,需求较大。
  语音监控技术或者话者识别技术,近年来一直是计算机通信领域的热门研究课题。由于 HMM(Haddin marcov Model) 对含噪音的语音信号有着较强的鲁棒性,因此在话者识别得到了广泛的引用,如在研究[4,5,6,7]中通过连续语音CHMM (Continuous CHMM) 的方法实现了较好的识别结果。但是,由于HMM对上下文无关时间序列的建模能力有限(需要自动转写内容),因此,近来多数的话者识别的研究均采用一个状态GMM法, 即高斯混合分布模型法(Gaussian Mixture Model GMM)。
  在实现一个基于海量数据的监控任务的话者识别系统时,不仅要考虑电话-话筒,周围环境等一些附加噪音因素,且还要面临被监控对象的发话时间短,变化多等复杂的实际问题。因此在这种场合单用GMM法就不能保证应用系统的精度及可靠性[8]。
  支持向量(Support Vector Machine SVM)法,对于小量静态数据有较强的分类能力,近来对语音处理技术中的应用广泛,有不少研究证明通过SVM法可以在语音信号的分类上获取较高的分类效果[9]。
  面向实际应用话者识别系统,本文研究讨论了如何有效地发挥GMM及SVM这两种方法的优势实现应用系统的方式方法。除此之外,为了得到当前测试语音是否来自目标人注册模型所对应的话者,本系统进一步研讨了基于通用背景声纹模型(Universal background Model UBM, 由许多的人混合训练获得模型适应目标人模型)的识别方法,即基于GMM-UBM及SVM方式的电话语音监控系统。
  2 系统分析
  2.1. 高斯混合分布模型GMM
  高斯混合分布模型GMM法是目前在话者识别技术中常用来建模的有效方法之一。图-1所示话者识别GMM模型的表现形式图。其中 表示话者s的M维高斯分布, 为均值, 为共分散矩阵,而 为加权比例系数。实时识别时的数理模型可表示为式(1)和(2):
  
  2.2. 语音信号传输特性分析
  话者识别系统的性能受很多因素的影响,如:环境,受话机,录音和信道条件,话者自身特征(如:方言,说话方式,情绪等)以及语种。图-2表示信道特性构造,传输到受话筒的语音是包含多种附加噪音的混合信号。
  在式(3)中 表示信号传输频率, 为特征量序列号,而 为话者数。可见由于 的客观存在,使受话筒信号产生失真。另外考虑到个人声道特性 ,发话环境杂音 及回线杂音 等因素时,实际传输到受话筒上的语音信号的数理模型应表现为式(4)的形式,即
  
  因此,在设计建立一个实时的话者识别系统时,如何从这样一个复杂的含噪音的信号中提取原有的语音信号是电话语音识别的最大的问题。也是本研究拟去解决的关键性问题
  支持向量分类器(SVM)
  SVM是一个强有力的机器学习分类器。对小量静态数据(对语音数据要求特征参数有不易变动的固定维数)可以获得理想的两类分类效果[10]。其数理模型表示为:
  
  设定系数。在语音分类技术其中: , 为支持向量, .为分类系数,K为kernal系数。 ,系数K一般设定为RBF值。
  2.3. 矢量量化(VQ)及加权矢量量化(WVQ)技术
  VQ方法是话者识别中实用的方法之一。它将每个
  待识别的话者看作是一个信源,从话者的训练序列中提取特征矢量,利用VQ聚类成码本来表示,如果待训练的数据量足够多,那么该码本就能有效地包含话者的聚类特征。在识别时首先对待识别的语音段提取特征矢量序列,然后用系统已有的每个码本依次进行VQ计算其各自的平均量化失真。选择平均量化失真最小的那个码本做为该对应的话者最终为系统的识别结果。平均量化失真的公式:

猜你想看
相关文章

Copyright © 2008 - 2022 版权所有 职场范文网

工业和信息化部 备案号:沪ICP备18009755号-3