基于MATLAB的语音倒谱分析22829.pdf
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_05.gif)
《基于MATLAB的语音倒谱分析22829.pdf》由会员分享,可在线阅读,更多相关《基于MATLAB的语音倒谱分析22829.pdf(35页珍藏版)》请在得力文库 - 分享文档赚钱的网站上搜索。
1、 海 南 大 学 毕 业 论 文(设计)题 目:基于 MATLAB 的语音倒谱分析 学 号:姓 名 年 级 学 院:专 业:指导教师:完成日期:2012 年 6 月 基于 MATLAB 的语音倒谱分析 I 摘 要 语言是人类最重要的交流工具,它自然方便、准确高效。随着社会的不断发展,各种各样的机器参与了人类的生产活动和社会活动,因此改善人与机器之间的关系,使人对机器的操纵更加便利就显得越来越重要。随着电子计算机和人工智能机器的广泛应用,人们发现,人和机器之间最好的通信方式是语言通信,而语音是语言的声学表现形式。要使机器听的懂人话,就要对语音信号进行处理。随着信息技术的不断发展,尤其是网络技术的
2、日益普及和完善,语音信号处理技术正发挥着越来越重要的作用。为了寻找具有良好性能的特征及提取重要参数以提高识别系统性能,各种科学的算法应运而生,倒谱法作为信号处理的重要的方法之一,能够得到比较好的识别性能。本文以 MATLAB 为平台,通过编程实现对语音信号的倒谱分析。首先,本文简要说明了倒谱与语音的相关理论原理,包括倒谱原理和语音的组成元素,为之后的进一步研究奠定理论基础。然后,对语音倒谱各个方面的应用进行了MATLAB 编程,得到了语音基音检测和共振峰检测的实验仿真结果。关键词:语音信号;倒谱;MATLAB;基音检测;共振峰检测;基于 MATLAB 的语音倒谱分析 II Abstract L
3、anguage is one of the most important communication tools,it is convenient and efficient.With the continuous development of the society,a variety of machines are used in the humans production and social activities,thus improving the relationship between man and machine makes the machine more convenie
4、nt what becomes more and more important.With the wide application of electronic computers and artificial intelligence machine,it was discovered that language communication is the best means of communication between man and machine,while the voice is the acoustic manifestations of the language.To mak
5、e the machine understands people,it is necessary to process the speech signal.With the continuous development of IT,especially the growing popularity of network technology and improvement of the voice signal processing technology is playing an increasingly important role,in order to find a good perf
6、ormance characteristics and extract important parameters to improve the performance of the recognition system,a variety of scientific algorithms have emerged,the cepstrum,as the signal processing one of the important methods,can get better recognition performance.MATLAB as a platform,can achieve cep
7、strum analysis of the speech signal by programming.First,the article briefly described the itheoretical principles of cepstrum and voice,including the the cepstrum principles and elements of voice,which laied the theoretical foundation for the further research.Then the speech cepstrum application in
8、 all aspects was programmed in MATLAB,thus we got voice pitch detection,peak detection experiment simulation results by simulation.Keywords:speech signal;cepstrum;MATLAB;pitch detection;resonance peak detection;基于 MATLAB 的语音倒谱分析 III 目 录 1 绪论.1 1.1 目的及意义.1 1.2 语音信号研究现状.1 1.3 主要研究内容.3 2 倒谱的基本原理.5 2.1
9、复倒谱和倒谱的定义.5 2.2 复倒谱的计算方法.6 2.3 复倒谱与倒谱的关系.9 3 语音信号的组成分析.11 3.1 语音的两个分量.11 3.2 语音类型.13 4 语音倒谱的应用及 MATLAB 仿真.15 4.1 倒谱的 MATLAB 实现.15 4.2 倒谱在同态信号处理系统的应用.16 4.3 倒谱在基音检测方面的应用.17 4.4 倒谱在共振峰检测方面的应用.21 5 总结.25 致 谢.26 参考文献.27 附录 A.28 附录 B.28 附录 C.30 基于 MATLAB 的语音倒谱分析 1 1绪论 1.1 目的及意义 由于语言是人们在日常生活中的主要交流手段,因此语音信
10、号处理在现代信息社会中占用重要地位。随着语音信号处理技术在实际生活中的应用的不断发展,语音信号处理技术已经越来越贴近人们的生活。目前,语音信号处理技术处于蓬勃发展的时期,不断有新的产品被研制开发,市场需求逐渐增加,具有良好的应用前景。语音信号处理虽然包括语音通信,语音合成,语音识别等内容,但是其前提和基础是对语音信号进行分析。在语音信号处理中可以常用倒谱域来提取语音的基频和共振峰,用于语音识别。倒谱系数是一种表征语音特征非常有效的参数矢量,它能将语音信号的声门激励信息及声道响应信息分离开来,也就是说倒谱具有解卷的特性,因此倒谱是说话人识别和语音识别中最常用的特征参数之一。由于倒谱在语音信号处理
11、中的重要地位,倒谱的应用也越来越广泛。例如可应用于通信、建筑声学、地震分析、地质勘探和语音处理等领域。尤其在语音处理方面,应用复倒谱算法可制成同态预测声码器系统,用于高度保密的通信。1.2 语音信号研究现状 声学是物理学的一个分支学科,而语言声学又是声学的一个分支学科。它主要的研究方向是人的发声器官机理,发声器官的类比线路和数学模型,听觉器官的特性(如听阈、掩蔽、临界带宽、听力损失等),听觉器官的数学模型,语音信号的物理特性(如频谱特性、声调特性、相关特性、概率分布等),语音的清晰度和可懂度等。当今通信和广播的发展非常迅速,而语言通信和语言广播仍然是最重要的部分,语言声学则是这些技术科学的基础
12、。语言声学的发展和电子学、计算机科学有着非常密切的关系。在它发展的过程中,有过几次飞跃。第一次飞跃是 1907 年电子管的发明和 1920 年无线电广播的出现。因为有了电子管放大器,很微弱的声音也可以放大,而且可以定量测量。从而使电声学和语言基于 MATLAB 的语音倒谱分析 2 声学的一些研究成果,扩展到通信和广播部门。第二次飞跃应该是在 20 世纪 70年代初,由于电子计算机和数字信号处理的发展,人们发现:声音信号特别是语音信号,可以通过模数转换器(A/D)采样和量化,它们转换为数字信号后,能够送进计算机.这样就可以用数字计算方法,对语音信号进行处理和加工.。例如频谱分析可以用傅里叶变换或
13、快速傅里叶变换(FFT)实现,数字滤波器可以用差分方程实现.在这个基础上,逐渐形成了一门新学科语音信号处理。它的发展很快,在通信、自动控制等领域,解决了很多用传统方法难以解决的问题。在信息科学中占有很重要的地位,其中语音识别的研究也开始了飞速的发展。语音识别的研究工作可以追溯到20 世纪 50 年代 AT&T 贝尔实验室的 Audry系统,它是第一个可以识别十个英文数字的语音识别系统。但真正取得实质性进展,并将其作为一个重要的课题开展研究则是在 60 年代末 70 年代初。这首先是因为计算机技术的发展为语音识别的实现提供了硬件和软件的可能,更重要的是语音信号线性预测编码(LPC)技术和动态时间
14、规整(DTW)技术的提出,有效的解决了语音信号的特征提取和不等长匹配问题。这一时期的语音识别主要基于模板匹配原理,研究的领域局限在特定人,小词汇表的孤立词识别,实现了基于线性预测倒谱和DTW 技术的特定人孤立词语音识别系统;同时提出了矢量量化(VQ)和隐马尔可夫模型(HMM)理论。随着应用领域的扩大,小词汇表、特定人、孤立词等这些对语音识别的约束条件需要放宽,与此同时也带来了许多新的问题:第一,词汇表的扩大使得模板的选取和建立发生困难;第二,连续的语音中,各个音素、音节以及词之间没有明显的边界,各个发音单位存在受上下文强烈影响的协同发音(Co-articulation)现象;第三,非特定人识别
15、时,不同的人说相同的话相应的声学特征有很大的差异,即使相同的人在不同的时间、生理、心理状态下,说同样内容的话也会有很大的差异;第四,识别的语音中有背景噪声或其他干扰。因此原有的模板匹配方法已不再适用。20 世纪 90 年代前期,许多著名的大公司如 IBM、苹果、AT&T 和 NTT 都对 语音识别系统的实用化研究投以巨资。语音识别技术有一个很好的评估机制,那就是识别的准确率,而这项指标在 20 世纪 90 年代中后期实验室研究中得到了不断的提高。比较有代表性的系统有:IBM 公司推出的 ViaVoice 和基于 MATLAB 的语音倒谱分析 3 DragonSystem公司的Naturally
16、Speaking,Nuance公司的NuanceVoicePlatform 语音平台,Microsoft 的 Whisper,Sun 的 VoiceTone 等。其中 IBM 公司于 1997 年开发出汉语 ViaVoice 语音识别系统,次年又开发出可以识别上海话、广东话和四川话等地方口音的语音识别系统 ViaVoice98。它带有一个 32000 词的基本词汇表,可以扩展到 65000 词,还包括办公常用词条,具有“纠错机制”,其平均识别率可以达到 95%。该系统对新闻语音识别具有较高的精度,是目前具有代表性的汉语连续语音。我国语音识别研究工作起步于五十年代,但近年来发展很快。研究水平也从
17、实验室逐步走向实用。从 1987 年开始执行国家 863 计划后,国家 863 只能计算机专家组为语音识别技术研究专门立项,每两年滚动一次。我国语音识别技术的研究水平已经基本上与国外同步,在汉语语音识别技术上还有自己的特点与优势,并达到国际先进水平。中科院自动化所、声学所、清华大学、北京大学、哈尔滨工业大学、上海交通大学、中国科技大学、北京邮电大学、华中科技大学等科研机构都有实验室进行过语音识别方面的研究,其中具有代表性的研究单位为清华大学电子工程系与中科院自动化研究所模式识别国家重点实验室。清华大学电子工程系语音技术与专用芯片设计课题组,研发的非特定人汉语数码串连续语音识别系统的识别精度,达
18、到 94.8%(不定长数字串)和 96.8%(定长数字串)。在有 5%拒识率情况下,系统识别率可以达到 96.9%(不定长数字串)和 98.7%(定长数字串),这是目前国际最好的识别结果之一,其性能已经接近实用水平。研发的五千词邮包对非特定人连续语音识别系统的识别率达到 98.73%;并且可以识别普通话与四川话两种语言,达到实用要求。中科院自动化所及其所属模式科技公司 2002 年发布了他们共同推出的面向不同计算平台和应用的“天语”中文语音系列产品PattekASR,结束了中文语音识别产品自 1998 年以来一直由国外公司垄断的历史。1.3 主要研究内容 本文研究的是语音信号的倒谱分析,首先第
19、一章的绪论部分,介绍了本文的研究目的与意义、语音信号的研究现状和本文的研究内容。第二章介绍了倒谱的理论知识。详细叙述了倒谱的定义以及计算方法,将倒基于 MATLAB 的语音倒谱分析 4 谱分为实倒谱和复倒谱,并区分实倒谱与复倒谱之间的关系,由此奠定了倒谱分析研究的基础。接着第三章介绍语音的组成,分别利用倒谱的定义求解了声门激励信号与声道冲激响应序列这两个语音卷积分量的复倒谱,并得出相应的结论,接着对语音的发音类型作了理论阐述。最后第四章具体研究了倒谱在语音信号处理中的简单应用,主要是语音信号识别的参数提取。首先通过输入一段语音,并将其导入到MATLAB 程序中进行语音的处理,完成语音在 MAT
20、LAB 中的倒谱实现,接着介绍倒谱在同态信号处理系统中的作用及同态信号处理系统的工作原理,然后是语音信号的主要应用,也是语音倒谱分析的重点内容,包括基音检测和共振峰检测两个方面,作为语音信号的重要参数,分别进行了详细的设计,为了清晰的描述程序的编写过程,对设计思路方法都进行了完备的阐述,并依据设计的算法画出了逻辑流程图,从而在 MATLAB 中完成程序的编写,最后通过对仿真结果进行了理论的分析,得出了语音的参数量值,完成了对语音信号倒谱分析的内容。基于 MATLAB 的语音倒谱分析 5 2 倒谱的基本原理 倒谱(CEP)参数是重要的语音特征参数,它是对语音进行同态处理的产物。在提取由于载波传递
21、的信号特性时,用Time-Cepstrum 分析会非常有效,能把相关的特性给提取出来。Cepstrum 在语音识别特征参数提取中用到很多,这是因为语音本质的东西往往是声带的振动,然后经过声道和口腔的调制才产生我们可以听到或拾取的声音。通过Cepstrum 分析语音就能将这一本质性的特征参数提取出来。而要熟练运用倒谱法,还是要从基本理论入手。2.1 复倒谱和倒谱的定义 复倒谱的概念不是唯一的,一般有三种定义。定义如下:其中假设信号为x(n)复倒谱的 Z 变换定义 复倒谱的傅里叶变换定义 复倒谱的离散傅立叶变换定义 复倒谱的定义可以用图 2.1 表示 11lnx(n)ZZ(x(n)ZX(z)()(
22、ln)(jweXIFTnxFTIFTnxdweeXeXIFTnxenxnxFTeXjwnjwjwNnjwnjw)(21)()()()()(10)()(ln)(kXIDFTnxDFTIDFTnx1010)(1)()()()()(NknkNNnnkNWkXNkXIDFTnxWnxnxDFTkX基于 MATLAB 的语音倒谱分析 6 图 2.1 三种复倒谱定义的框图表示 有了复倒谱的定义后,倒谱的概念就不会复杂了。现在我们以复倒谱傅里叶变换定义为例来定义倒谱,将 取对数有 为复数,则只考虑其实部。令|)(|)(jweIFTnc 图 2.2 倒谱的实现框图 x(n)的对数幅度谱的傅立叶逆变换,即图 2
23、.2 中的 c(n)称为“倒频谱”或“倒谱”c(n)就是要求取的语音信号倒谱系数。2.2 复倒谱的计算方法 在复倒谱分析中,Z 变换后是复数,取对数时是复对数运算,此时存在相位多值性问题相位卷绕。取信号 为例进行说明 FT ln|.|IFT x(n)c(n)Z ln Z-1 FT ln IFT DFT ln IDFT x(n)x(n)x(n)(arg|)(|)(jweXjjwjweeXeX)(arg|)(|ln)(jwjwjweXjeXeX)(jweX)()()(21nxnxnx基于 MATLAB 的语音倒谱分析 7 由以上倒谱计算的流程可以得到其倒谱的幅度:相位:由上式虚部可知相位有多值性
24、相位可以写成:其中 k为整数,所以相位多值,这种现象被称为相位卷绕。避免相位卷绕的方法主要有:微分法、最小相位信号法。(1)微分法 由傅里叶变换的微分特性 改写:)()()(21nxnxnx求傅里叶变换)()()(21jjjeXeXeX求复对数)(ln)(ln)(ln21jjjeXeXeX)(ln)(ln)(ln21jjjeXeXeX()ln()()ln()lnarg()|()2|jjjjjx nIFTX eIFT X eX eXXjkeek2)()(是主值20)(njnjennxeXddj)()(njnjenxneXddj)()(njnjjjjenxneXeXddjeXddjeXddj)()
25、()()(ln)(基于 MATLAB 的语音倒谱分析 8 图 2.3 利用傅立叶变换的微分特性求复倒谱的框图 避免了求复对数的问题,但其缺点是会产生严重的频谱混叠。原因:频谱中的高频分量比)(nx有所增加,所以仍使用)(nx原来的取样率将引起混叠;混叠后求出的)(nx 就不是)(nx的复倒谱了。(2)最小相位信号法 1)这是由倒谱c(n)求复倒谱 的方法。2)最小相位信号法是由最小相位序列的复倒谱性质和 Hilbert 变换的性质推出来的。3)适用条件:最小相位信号序列 4)最小相位信号序列:信号的零极点全部在 z 平面单位圆内。其复倒谱序列是因果序列。进一步引入辅助因子 则:DFT 乘 n
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 MATLAB 语音 谱分析 22829
![提示](https://www.deliwenku.com/images/bang_tan.gif)
限制150内