模式识别理论和技术在语音识别研究中的应用.pdf

资源ID：69697648 资源大小：286.45KB 全文页数：4页
资源格式： PDF 下载积分：15金币

快捷下载

会员登录下载

微信登录下载

三方登录下载：

微信扫一扫登录

下载资源需要15金币

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
支付方式：
验证码：	换一换

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？

友情提示

1、下载资料失败解决办法

2、PDF文件下载后，可能会被浏览器默认打开，此种情况可以点击浏览器菜单，保存网页到桌面，就可以正常下载了。

3、本站不支持迅雷下载，请使用电脑自带的IE浏览器，或者360浏览器、谷歌浏览器下载即可。

4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩，下载后原文更清晰。

5、试题试卷类文档，如果标题没有明确说明有答案则都视为没有答案，请知晓。

网站客服

侵权投诉

模式识别理论和技术在语音识别研究中的应用.pdf

企肥学院学报(自然科学版)2 0 0 9年 2月第 1 9卷第 1期 J o u rna l o f H e i U n i v e r s i t y(N a t u r a l S c i e n c e s)F e b 2 0 0 9 V o 1 1 9 No 1 模式识别理论和技术在语音识别研究中的应用杨海峰，张德祥(安徽大学 a 教务处 b 电子科学与技术学院，合肥2 3 0 0 3 9)摘要：语音识别是让机器听懂人的说话，并准确地识别出语音的内容和执行相应操作的技术该文介绍了语音识别发展的过程，语音识别系统的结构和识别过程，模式识别理论和技术在语音识别研究中的应用以及语音识别中的关键技术和面临的问题最后讨论了语音识别技术存在的优点和不足，并展望了其应用研究的前景关键词：语音识别；模式识别；特征提取；模式匹配中图分类号：T P 3 9 1 4 2 文献标识码：A 文章编号 1 6 7 31 6 2 X(2 0 0 9)0 1 0 0 2 0 0 4 语音识别是以语音为研究对象，通过语音信号处理和模式识别让机器自动识别和理解人类口述的语言语音识别技术就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高技术语音识别是一门涉及面很广的交叉学科，它与声学、语音学、语言学、信息理论、模式识别理论、以及神经生物学等学科都有非常密切的关系语音识别技术正逐步成为计算机信息处理技术中的关键技术，语音技术的应用已经成为一个具有竞争性的新兴高技术产业语音识别的研究从 2 0世纪 5 0年代 A T&T贝尔实验室开发的 1 0个英文数字的语音识别系统开始，到 6 O _7 0年代，由于动态规划和线性预测分析技术的提出，有效地解决了语音信号的特征提取和不等长匹配问题，实现了特定人小词汇量的孤立词的识别，语音识别研究得到快速发展，特别是提出了矢量量化和隐马尔可夫模型(H i d d e n Ma r k o v Mo d e l s，H MM)理论，使得语音识别研究取得突破性进展进入 8 0年代，以 H MM模型和人工神经元网络(A N N)在语音识别技术上应用为代表的新技术不断出现，统计的语言模型开始取代基于规则的语言模型而成为主流，使得语音识别朝着大词汇量、连续语音和非特定人的语音识别方向深入，有效地解决了语音信号短时稳定、长时时变的非平稳特性，使语音序列建模方法、统计建模方法、词语之间关系的统计模型建立方法和语法规则机制建立方法在连续语音识别中得到深度应用 _ 2 进入 2 0世纪 9 0年代后，语音识别在细化模型的设计、参数提取和优化以及系统的自适应等方面取得一系列关键性的进展，特别是现代信号处理技术如时频分析、小波分析、模糊理论、混沌与分形理论、遗传算法和支持向量机等都正在应用于说话人识别技术上，使得语音识别技术进一步成熟，并开始向市场提供产品。1 语音识别系统的结构一个完整的基于统计的语音识别系统一般由语音信号预处理与特征提取，声学模型与模式识别，语言模型与语音处理 3部分组成 4 总体上说，语音识别就是一个模式识别和匹配的过程，首先计算机必须根据人的语音特点来建立语音特征模型或字典库；然后对获取的语音输入信号经过噪声去除和端点检测等预处理后进行特征分析和提取，建立所需识别的语音信号模板；再采用模式识别理论和技术，将计算机中已经存在的语音模板特征与输入的语音信号特征进行比较，并根据一定的搜索和模式匹配的策略从语音特征库中找出最优的语音模版与输入语音进行匹配处理；最后通过查表或判别算法来给出识别结果目前语音识别主要集中在特定人和非特定人语音识别、孤立词和连续语音识别、小词汇量和大词汇量的语音识别方面其语音识别系统结构如图 1 所示收稿日期：2 0 0 81 01 3 基金项目：安徽省教育厅自然科学基金项目(K J 2 0 0 8 B 0 9 4)资助作者简介：杨海峰(1 9 7 9 一)，男，安徽界首人，安徽大学教务处助理研究员；张德祥(1 9 6 8 一)，男，安徽六安人，安徽大学电子科学与技术学院副教授第 1 期杨海峰，等：模式识别理论和技术在语音识别研究中的应用 2 l 2 模式识别技术在语音识别中应用模式匹配是指根据一定准则，使未知模式与模型库中某一模型获得最佳匹配模型训练是指按照一定准则，从大量已知模式中提取表示该模式特征的模型参数语音识别所应用的模式匹配和模型训练技术有：动态时间规整技术(D T W)、隐马尔可夫模型(HM M)、矢量量化(V Q)、人工神经网络(A N N)、支持向量机(S V M)、独立分量分析(I C A)等方法 2 1 动态时间规整(DT W)动态时间规整算法图1 语音识别系统结构(D y n a m i c T i m e Wa r p i n g，D T W)是在非特定人语音识别中一种简单有效的方法，该算法基于动态规划的思想，解决了发音长短不一的模板匹配问题，是语音识别技术中出现较早、较常用的一种算法在应用 D T W算法进行语音识别时，就是将已经预处理和分帧过的语音测试信号去和参考语音模板进行比较以获取他们之间的相似度，按照某种距离测度得出两模板间的相似程度并选择最佳路径 2 2 隐马尔可夫模型法(H MM)隐马尔可夫模型是语音信号处理中的一种统计模型，是2 0 世纪 7 0 年代引入语音识别理论中的，6 目前大多数大词汇量、连续语音的非特定人语音识别系统都是基于 H MM模型的 H MM是对语音信号的时间序列结构具有学习能力的统计模型，它是一个数学上双重随机过程：一个是马尔科夫链，这是基本的随机过程，它是通过隐含的状态转移来描述发音的变化；一个是引入了概率统计模型，不再用动态时间对齐的方法求匹配距离，而是用概率密度函数计算语音参数对 H MM模型的输出概率，通过搜索最佳状态序列，以最大后验概率为准则找到识别结果 H MM很好地描述了语音信号的整体非平稳性和局部平稳性，是较为理想的一种语音模型 HMM不需要时间规整，可节约判决时的计算时间和存储量，在目前被广泛应用 H MM 的性能在很多应用中都可以和 D T W 相比，而计算代价只有后者的几分之一由于允许随机转移和随机输出，所以 HMM能适应发音的各种微妙变化在识别词表中，用识别器来决定每一个单词由哪一个模型提供输出因为模型本身对识别器来说是看不见的，它只能根据获得的数据推导出来，故称为隐马尔可夫模型同时 H M M理论还和其他理论结合起来，如 H M M和神经网络结合、H M M和支持向量机结合、H MM和小波结合等综合方法应用于语音识别 2 3 矢量量化(VQ)矢量量化(V e c t o r Q u a n t i z a t i o n)是一种重要的信号压缩方法与 HMM相比，矢量量化主要适用于小词汇量、孤立词的语音识别中 _ 8 其过程是将若干个语音信号波形或特征参数的标量数据组成一个矢量在多维空间进行整体量化把矢量空间分成若干个小区域，每个小区域寻找一个代表矢量，量化时落入小区域的矢量就用这个代表矢量代替矢量量化器的设计就是从大量信号样本中训练出好的码书，从实际效果出发寻找到好的失真测度定义公式，设计出最佳的矢量量化系统，用最少的搜索和计算失真的运算量实现最大可能的平均信噪比在实际的应用过程中，人们还研究了多种降低复杂度的方法，包括元记忆的矢量量化、有记忆的矢量量化和模糊矢量量化方法 2 4 神经网络的方法利用人工神经网络的方法是 2 0世纪 8 0年代末期提出的一种新的语音识别方法人工神经网络(A N N)本质上是一个自适应非线性动力学系统，模拟了人类神经活动的原理，具有自适应性、并行性、鲁棒性、容错性和学习特性，其强大的分类能力和输入一输出映射能力在语音识别中都很有吸引力其方法是模拟人脑思维机制的工程模型，它与 H M M正好相反，其分类决策能力和对不确定信息的描述能力得到举世公认，但它对动态时间信号的描述能力尚不尽如人意，通常 ML P分类器只能解决静态模式分类问题，并不涉及时间序列的处理尽管学者们提出了许多含反馈的结构，但它们仍不足以刻画诸如语音信号这种时间序列的动态特性 1】由于 A N N不能很好地描述语音信号的时间动态特性，所以常把 A N N与传统识别方法结合，分别利用各自优点来进行语音识别而克服 H M M和 A N N各自的缺点近年来结合神经网络和隐含马尔可夫模型的识别算法研究取得了显著进展，其识别率已经接近隐含马尔可夫模 2 2 合肥学院学报(自然科学版)第 1 9卷型的识别系统，进一步提高了语音识别的鲁棒性和准确率 2 5 支持向量机方法支持向量机(S u p p o r t V e c t o r Ma c h i n e，S V M)是数据挖掘中的一项新技术，它最初于 2 0世纪 9 0年代由 V a p n i k提出，近年来在其理论研究和算法实现方面都取得了突破性的进展，开始成为克服“维数灾难”和“过学习”等传统困难的有力手段 _ l 支持向量机同其他模式识别方法相比主要有两个不同点：一是它采用一个非线性核函数来表示特征空间的内积，另外一方面它采用分类间隔最大的最优分类超平面实现结构风险最小化原则由于它具有良好的理论基础，所以在各个领域中得到广泛应用，使用支持向量机对说话人进行建模也在最近几年得到许多研究说话人识别中采用支持向量机对说话人进行建模的方法大致可分两类：一类是基于帧的方法，另外一类是基于语句的方法由于支持向量机核函数的使用，使得这种变换操作可以采用隐式方式进行，即不需要知道固定大小向量的维数，或者根本不能映射到固定大小向量上，只需要知道两条长度不一样的语句之间的距离，所有语句之间的距离构成核距离矩阵，便可以用来训练支持向量机并实现语音识别说话人识别属于连续输入信号的分类问题，S V M是一个很好的分类器，但不适合处理连续输人样本 H MM适合处理连续信号且结果反映了同类样本的相似度，而 S V M的输出结果体现了异类样本间的分类问题，所以在实际中常将 S V M和 HMM集合起来建立模型引 2 6 独立分量分析方法独立分量分析(I C A)是一种高阶统计量信号处理方法，是模式识别与信号处理等相关领域的一个重要的研究热点基于独立分量分析的盲信号处理(B S P)理论及其在语音识别预处理中语音信号盲源分离(B S S)和语音增强等方面得到广泛的应用研究对混合语音信号的盲分离虽然不能实现识别的目标，但通过该技术却能够使得原本混叠的语音信号相互剥离，使得噪声环境下和多说话人情况下的语音识别的实现成为可能通过 F a s t I C A算法、信息最大化方法、最大似然估计算法以及基于统计学的四阶累积量方法，可以实现语音信号的盲分离而探讨语音的分离与消噪，使 I C A的语音盲分离、语音增强、语音识别三个阶段是一个不可分割的整体，分离是增强的基础，识别为预处理的目的同时 I C A在语音编码，特别是在混叠语音信号编码方面优势更好总之，不论从混叠语音的盲分离，还是从语音增强效果，乃至系统识别率的提高等不同角度来看，独立分量分析都不失为一种有效的语音识别预处理方法 3 语音识别的关键技术和面临的问题语音识别的关键技术包括特征参数提取技术、模式匹配准则及模型训练技术、语音识别单元选取尽管语音识别的研究己有半个世纪了，但现有的语音识别系统仍存在如下问题(1)语音识别系统的适应性差，主要体现在对环境依赖性强，因此要提高系统鲁棒性和自适应能力(2)噪声环境下语音识别进展困难，因此必须寻找新的信号分析处理方法，包括语音特征提取、声学模型、语言模型等诸多方面理论的突破(3)语言模型和声学模型的建立要有进一步的突破需把语音知识和语言知识结合起来，以高层知识作为建模和识别的引导，以适应不同人在不同时刻的语音识别(4)对人类的听觉理解、知识积累和学习机制以及大脑神经系统的控制机理等方面的认识还很不清楚(5)多语言混合识别以及无限词汇识别方面还存在很多问题没有技术细节需要解决，缺乏海量语音库和语料库，汉语的字词不分、灵活自由的语言表述、大量的同音字词都给汉语语言理解与处理以及语音识别带来了困难 4 结论语音识别技术发展到今天，特别是中小词汇量非特定人语音识别系统识别精度已经大于 9 8 ，对特定人语音识别系统的识别精度就更高，这些技术已经能够满足通常应用的要求虽然目前出现的语音识别技术都是基于言语产生的模型，各种模板匹配、多模板聚类、隐含马尔可夫链、神经网络模型等被广泛应用，但由于模型本身的缺陷，使得语音识别技术的发展缓慢目前在语音识别领域非常活跃的课题为稳健语音识别、说话人自适应技术、大词汇量关键词识别算法、语音识别的可信度评测算法、基于类的语言模型和自适应语言模型，以及深层次的自然语言的理解随着科技的发展，语音识别必将成为信息技术中人机接口的关键技术，语音识别技术与语音合成技术结合使第 1 期杨海峰，等：模式识别理论和技术在语音识别研究中的应用 2 3 人们能够甩掉键盘，通过语音命令进行操作语音技术的应用已经成为一个具有竞争性的新兴高技术产业参考文献：1 赵力语音信号处理 M 北京：机械工业出版社，2 0 0 3：1 0 1 5 2 顾良，刘润生汉语数码语音识别：困难分析与方法比较 J 电路与系统学报，1 9 9 7，2(4)：3 2 3 9 3 杜利民，侯自强汉语语音识别研究面临的一些科学问题 J 电子学报，1 9 9 5，2 3(1 0)：1 1 0-1 1 5 4 张雄伟，陈亮，杨吉斌现代语音处理技术及应用 M 北京：机械工业出版社，2 0 0 3：3 1 1 5 张军，韦岗基于相对自相关序列 MF C C特征的模型补偿技术 J 信号处理，2 0 0 3，1 9(3)：2 8 4-2 8 6 6 J u a n g B H P a l i w a l K K Hi d d e n Ma r k o v Mo d e l s w i t h F i r s t O r d e r E q u a l i z a t i o n f o r N o i s y S p e e c h R e c o g n i t i o n J I E E E T r a n s S P，1 9 9 2，4 0(9)：2 1 3 6-2 1 4 3 7 林坤辉，息晓静，周昌乐基于 HM M与神经网络的声学模型研究 J 厦门大学学报：自然科学版，2 0 0 6，4 5(1)：4 4-4 6 8 S o o n g F KA V e c t o r Q u a n t i z a t i o n A p p r o a c h t o S p e a k e r R e c o g n i t i o n C P r o c o f I C A S S P 一 8 5，T a m p a：I E E E，1 9 8 5：3 8 7-3 9 0 9 张云雁基于改进的矢量量化算法的说话人识别 D 上海：上海大学理学院，2 0 0 5：2 3-3 1 1 0 S c h l i e p A，S c h n h u t h A，S t e i n h o ff C U s i n g H i d d e n M a r k o v M o d e l s t o A n al y z e G e n e E x p r e s s i o n T i me C o u r s e D a t a J B i o i n f o r m a t i c s，2 0 0 3，1 9(1)：2 5 5 2 6 3 1 1 张学工关于统计学习理论与支持向量机 J 自动化学报，2 0 0 0，2 6(1)：3 2-4 1 1 2 C a m p b e l l W M，S t u r i m D E，R e y n o l d s D A S u p p o V e t o r Ma c h i n e s U s i n g G MM S u p e r v e c t o r fo r S p e a k e r V e ri fi c a t i o n J I E E E S i gna l P r o c e s s i n g L e t t e rs，2 0 0 6，1 3(5)：3 0 8-3 1 1 1 3 彭煊，刘金福，王炳锡基于独立分量分析的语音增强 J 信号处理，2 0 0 2，1 8(5)：4 7 7-4 7 9 1 4 屈微等，刘贺平拓扑独立分量分析在方言特征提取中的应用研究 J 语音技术，2 0 0 5，(5)：3 9-4 3 责任编校：张永军 Ap p l i c a t i o n o f Pa t t e r n Re c o g n i t i o n Th e o r y a nd Te c h ni q u e s i n t h e S t u d y o f Pho ne t i c Re c o g ni t i o n YANG Ha i f e n g ，ZHANG De x i a n g (a T e a c h i n g A f f a i r s O ff i c e；b C o l l e g e o f E l e c t r o n i c S c i e n c e a n d T e c h n o l o g y，A n h u i U n i v e r s i t y，He f e i 2 3 0 0 3 9，C h i n a)A b s t r a c t：T h e g o a l o f p h o n e t i c r e c o g n i t i o n i s d e v e l o p i n g a k i n d o f ma c h i n e w i t h p h o n e t i c r e c o g n i t i o n f un c t i o n wh i c h i s a b l e t o i d e n t i f y p h o n e t i c me s s a g e s a n d pe r f o r m h uma n i n t e n t i o ns i n a n y c o nd i t i o n Th e d e v e l o p i n g p r o g r e s s，s y s t e m f r a me wo r k a n d r e c o g n i z i n g p r o c e s s o f p h o n e t i c r e c o g n i t i o n we r e i n t r o d u c e d Ap p l i c a t i o n o f p a t t e r n r e c o g n i t i o n t h e o r y a nd t e c h n i q ue s i n t he s t u d y o f p h o n e t i c r e c o g n i t i o n a s we l l a s k e y t e c h n o l o g i e s a n d p r o b l e m o f p ho n e t i c r e c o g ni t i o n we r e a l s o p r o p o s e d Th e a d v a n t a g e s a n d s ho r t c o mi n g s o f p h o n e t i c r e c o g n i t i o n we r e d i s c u s s e d Th e a p pl i c a t i o n r e s e a r c h o f p h o n e t i c r e c o g ni t i o n wa s p r o s pe c t e d Ke y wo r d s：p h o n e t i c r e c o g ni t i o n；p a t t e rn r e c o g n i t i o n；f e a t ur e e x t r a c t i o n；pa t t e rn ma t c h

注意事项

本文（模式识别理论和技术在语音识别研究中的应用.pdf）为本站会员（asd****56）主动上传，得力文库 - 分享文档赚钱的网站仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对上载内容本身不做任何修改或编辑。若此文所含内容侵犯了您的版权或隐私，请立即通知得力文库 - 分享文档赚钱的网站（点击联系客服），我们立即给予删除！

温馨提示：如果因为网速或其他原因下载失败请重新下载，重复下载不扣分。