当前位置:大学毕业论文> 专科论文>材料浏览

关于语音识别系统论文范文写作 基于空间增强和谱减法语音识别系统相关论文写作资料

主题:语音识别系统论文写作 时间:2024-02-28

基于空间增强和谱减法语音识别系统,本文是一篇关于语音识别系统论文范文,可作为相关选题参考,和写作参考文献。

语音识别系统论文参考文献:

语音识别系统论文参考文献 学生管理系统论文论文系统信息系统项目管理论文论文查询系统

摘 要 为了解决连续语音识别在自然环境中噪声估计高误差、去除噪声和语言失真不能良好平衡、导致关键词识别率低下的问题,提出了一种全新的自动语音识别系统(ASR).本系统将双通道含噪语音信号通过空间增强模块进行噪声提取,通过均衡考虑语音信号和参考噪声输入谱减法模块进行去噪和语音失真的噪声去除和信号放大,最后进入基于隐马尔科夫模型(HMM)的自适应语音信号识别模块进行识别处理.实验显示,本系统可有效减少运算负载、提高关键词识别率.

关键词 空间增强;谱减法;连续语音识别;自适应;双通道信号

中图分类号 TP393文献标识码 A文章编号 10002537(2014)03006306

虽然自动语音识别(ASR)系统的研究已投入了大量的人员和资金,但是它还不能够像电话一样,作为日常生活的一部分完整地融入到人们的生活当中.其中一个最主要的问题就是自动语音识别系统在噪声和混响环境下,特别是二者混合环境下的识别性能过于低下[1].在大多数情况下,为获得可接受的识别性能,只能依赖于麦克风阵列的使用,即通过使用大量按照特定位置放置的麦克风来获取语音输入和空间信息.大量的ASR研究,使用麦克风阵列得到方向增益,以改善噪声和混响环境中获取信号的质量;采用模式识别技术中的谱减法来消除噪声和处理语音训练集和测试集不匹配问题[2].

在日常应用中,普通用户既不可能随身携带麦克风阵列也不可能精确地放置它们.目前,日常使用的麦克风是和双通道耳机相对应的,它能得到双通道语音信号,却不能得到复杂的空间信息.如果依然采用传统的信号增强方法(例如广义旁瓣抵消技术)来处理双通道信号,以作为语音识别系统的预处理端,那么噪声的消除反而会带来无法接受的语音失真.

谱减法[3]作为另一种消除噪声的技术,可以不依赖麦克风阵列获取输入信号,但是却存在三大缺点:(1)噪声估计误差过大导致噪声消除时语音失真;(2)增强后的语音中含有明显的“音乐噪声”;(3)混响未被处理.

为解决上述问题,本文基于双声道语音信号简单的空间特性,综合使用改进的广义旁瓣抵消空间增强技术和改进的谱减法技术作为语音识别系统的噪声消除和信号放大的预处理端,并基于HTK开发工具设计一个识别性能优异的语音识别系统.

1 系统描述

图1 系统结构

Fig.1 System structure

图1为本系统的整体构架.它由空间增强、谱减法模块和自动语音识别模块3个主要部分构成.

1.1 空间增强模块

因为空间线索是语音识别的主要部分和远场麦克风语音识别的组织焦点,在该ASR系统中,采用PASCAL “CHiME”[4]组织提供的双通道含噪语音信号,利用该信号简单的空间特性可以得到表现优异的噪声估计.

有许多经典的使用麦克风阵列的方法来放大目标信号,例如通过延迟求和方式的波束形成,自适应噪声消除(ANC)以及独立成分分析(ICA).它们使用麦克风阵列得到方向增益,以改善在噪声和混响环境中获取信号的质量.

1.2 噪声消除模块

通常的ASR系统在处理含噪信号时性能大幅度下降,因此,噪音消除是该系统中常见且必须的组成部分.当前主流的噪声消除技术可以分为3大部分.(1)使用时域滤波技术,例如维纳滤波和自适应滤波;(2)尝试还原原始语音谱的谱还原技术,例如谱减法[5]和参数减法;(3)为增强语音结构,有许多基于语音模型的噪声消除技术,例如基于谐波模型的噪声消除.然而,使用这些技术来获得噪声衰减和信噪比的改善,往往会造成语音失真.通常,越干净的噪声消除会导致越严重的语音失真,因此,研究设计一个针对复杂声学环境的ASR系统,在语音失真和噪声消除之间寻找一个平衡点,是非常重要的工作.

1.3 识别系统自适应

通过一些经典的空间滤波和噪声消除技术来处理麦克风阵列在真实环境中获取的声音信号,较直接采集含噪声音,具有更好的听感知质量.但是无论系统设计多么完备,获得的加强声音中依然会有噪声残留和语音失真的问题存在,它们能被正常人轻易的接受和识别,但是目前的ASR系统却不具备这样的能力.当前几乎所有的ASR系统都采用模式识别技术,当测试数据集接近训练数据集时,能够得到非常高的识别精确度.但是噪声残留和语音失真会导致测试数据集完全不同于“干净”的训练数据集,训练和测试不匹配的问题会直接导致ASR系统识别率的降低.

为解决这些问题,前人提出许多的方法,例如模型再训练和自适应,特征变换和归一化[67],建立环境模型和模型特征一体化技术将之使用在自动语音识别模块上,能起到良好的效果.

综合考虑到对上面所述三部分的分析,所有的模块都应该整合为一体,只有通过良好的语音信号预处理和完善的识别系统自适应,才能构架一个更优异性能的ASR系统.

2 系统设计

本文提出一个简洁而具有高鲁棒性的针对CHiME问题的ASR系统.首先,依据双通道信号的空间信息增强它们,然后采用改进的谱减法获得增强信号,作为ASR系统的输入,最终得到识别结果和关键词准确率.

2.1 改进的空间增强

由于存在混响问题,使用传统方法得到双通道信号的空间信息的有效内容非常困难.另外,如果采用传统的信号增强方法,例如基于广义旁瓣相消(GSC) 的波束成型,作为ASR系统的前端,那么噪音消除会带来语音失真[8],会极大地降低ASR系统的识别性能.语音失真是由GSC多路输入抵消器(MC)的窄带自适应滤波器导致的,它既无法良好地消除噪声,同时还消耗昂贵的计算资源.

图2 空间增强

Fig.2 Spatial enhancement

本ASR系统的前端,利用双通道语音信号的优势,移除了典型GSC里的MC模型,使得在空间滤波的同时尽量避免语音失真和降低计算负担(图2).该模块的主要任务是提取参考噪声,而不再进行噪声消除.

结论:适合语音识别系统论文写作的大学硕士及相关本科毕业论文,相关智能语音识别系统开题报告范文和学术职称论文参考文献下载。

语音识别64年大突破
语言,之所以重要,在于人类的思维能力是伴随着它的产生而迅速发展的,这也是人类在智能上区别于其他物种的原因。语音识别,作为人工智能应用的一个场景,。

基于Arduino语音报警系统
摘 要:介绍了一种基于Arduino的语音报警系统。文中描述了语音系统的实现原理和具体功能,该系统通过接收以太网上的UDP报文,解析成文本并进行。

市场反弹趋势仍将延续互联网女皇力推语音识别
上周文章我明确提出阶段看多的观点,并建议积极参与反弹行情,本周上证指数上涨超过百点,同时我明确看好的板块是食品饮料行业的龙头股,本周白酒龙头股贵。

企业品牌识别系统
识别 系统 结构研究引言消费者对企业品牌的认识,就如同人与人之间相互认识的过程一样,不但要看对方的五官长相、衣服穿着,还要观察对方的言行举止。

论文大全