《语音识别综述》PPT课件.ppt

上传人：wuy****n92

文档编号：70499500

上传时间：2023-01-21

格式：PPT

页数：25

大小：253.99KB

( 4.5 )

《《语音识别综述》PPT课件.ppt》由会员分享，可在线阅读，更多相关《《语音识别综述》PPT课件.ppt（25页珍藏版）》请在得力文库 - 分享文档赚钱的网站上搜索。

1、上页上页下页下页节节末页末页结束结束语音识别算法综述语音识别算法综述上页上页下页下页节节末页末页结束结束语音识别的分类语音识别的分类一、从识别单位分为以下几类一、从识别单位分为以下几类1.孤立词语音识别。识别的单词间有停顿。孤立词语音识别。识别的单词间有停顿。2.连接词语音识别。在连续语音中识别出其包含的几个或某几连接词语音识别。在连续语音中识别出其包含的几个或某几个词。个词。3.连续语音识别。识别的单词之间没有停顿。连续语音识别。识别的单词之间没有停顿。4.语音理解。在语音识别的基础上，用语言学知识推断出语音语音理解。在语音识别的基础上，用语言学知识推断出语音的含义。的含义。二、从识别的

2、词汇量可以分为小词汇（二、从识别的词汇量可以分为小词汇（1050个）、中词汇（个）、中词汇（50200个）、大词汇（个）、大词汇（200个以上）等三类。个以上）等三类。三、按讲话人范围可以分为特定讲话人和非特定讲话人两类。三、按讲话人范围可以分为特定讲话人和非特定讲话人两类。不仅仅这三种分类方法，我们还可以从识别方法、识别环境、不仅仅这三种分类方法，我们还可以从识别方法、识别环境、说话人类型等方面进行分类。说话人类型等方面进行分类。上页上页下页下页节节末页末页结束结束语音识别技术的发展方向语音识别技术的发展方向一、大词汇量连续语音识别系统，主要应用于计算机的听写，一、大词汇量连续语音识别系统

3、，主要应用于计算机的听写，以及与电话网或者互联网相结合的语音信息查询服务系统，这以及与电话网或者互联网相结合的语音信息查询服务系统，这些系统都是在计算机平台上实现的。些系统都是在计算机平台上实现的。二、小型化、便携式语音产品的应用，如无线手机上的拨号、二、小型化、便携式语音产品的应用，如无线手机上的拨号、汽车设备的语音控制、智能玩具、家电遥控等方面的应用，这汽车设备的语音控制、智能玩具、家电遥控等方面的应用，这些应用系统大都是使用专门的硬件系统实现。些应用系统大都是使用专门的硬件系统实现。语音识别与语言学和人工智能有密切联系。语音识别的重大进语音识别与语言学和人工智能有密切联系。语音识别的重大

4、进展可能并不是来自分析、自适应模式匹配及计算机运算等方面展可能并不是来自分析、自适应模式匹配及计算机运算等方面的进一步研究，而是来自语言感知、语言产生、语音学、语言的进一步研究，而是来自语言感知、语言产生、语音学、语言学及心理学的研究。学及心理学的研究。上页上页下页下页节节末页末页结束结束语音识别的原理语音识别的原理上页上页下页下页节节末页末页结束结束预处理预处理待识别的语音经过话筒变成电信号后加在识别系统的输入端，待识别的语音经过话筒变成电信号后加在识别系统的输入端，首先要经过预处理。预处理包括反混叠失真滤波、预加重和端首先要经过预处理。预处理包括反混叠失真滤波、预加重和端点检测。经过

5、预处理后，按照一定的特征提取方法产生语音特点检测。经过预处理后，按照一定的特征提取方法产生语音特征参数，这些特征参数的时间序列便构成了待识别语音模式，征参数，这些特征参数的时间序列便构成了待识别语音模式，将其与已经存储在的参考模式逐一进行比较（模式匹配），最将其与已经存储在的参考模式逐一进行比较（模式匹配），最佳（由判决规则确定）的参考模式便是识别结果。参考模式是佳（由判决规则确定）的参考模式便是识别结果。参考模式是在系统使用前获得并存储起来的，为此，要输入一系列已知语在系统使用前获得并存储起来的，为此，要输入一系列已知语音信号，提取它们的特征作为参考模式，这一过程称为训练。音信号，提取它们的

6、特征作为参考模式，这一过程称为训练。语音识别所遇的难题是搜索最佳识别结果和参数训练。目前，语音识别所遇的难题是搜索最佳识别结果和参数训练。目前，语音识别所应用的模式匹配和模型训练技术主要有动态时间规语音识别所应用的模式匹配和模型训练技术主要有动态时间规整技术（整技术（DTW）、隐马尔科夫模型（）、隐马尔科夫模型（HMM）和人工神经网络。）和人工神经网络。上页上页下页下页节节末页末页结束结束特征提取特征提取特征提取就是对语音信号进行分析处理，去除语音识别无特征提取就是对语音信号进行分析处理，去除语音识别无关紧要的冗余信息，获得影响语音识别的重要信息。特征提关紧要的冗余信息，获得影响语音识别的

7、重要信息。特征提取一般要解决两个问题，一个是从语音信号中提取有代表性取一般要解决两个问题，一个是从语音信号中提取有代表性的合适的特征参数，另一个是进行适当的数据压缩。目前，的合适的特征参数，另一个是进行适当的数据压缩。目前，语音识别技术中应用最流行的特征参数是基于人的声道模型语音识别技术中应用最流行的特征参数是基于人的声道模型和听觉机理的和听觉机理的LPCC，LPCMCC，MFCC和和ZCPA。语音特征的参数是分帧提取的，每帧特征参数一般构成一个语音特征的参数是分帧提取的，每帧特征参数一般构成一个矢量序列。语音信号中提取出来的矢量序列经过数据压缩后矢量序列。语音信号中提取出来的矢量序列经过数据

8、压缩后便成为语音的模板，显然，特征的选取对识别效果至关重要，便成为语音的模板，显然，特征的选取对识别效果至关重要，选择的标准应尽量满足一下两个要求：选择的标准应尽量满足一下两个要求：（1）能有效的代表语音特征，包括声道特征和听觉特征，具）能有效的代表语音特征，包括声道特征和听觉特征，具有很好的区分性。有很好的区分性。（2）特征参数要计算方便，在保持高识别率的情况下。最好）特征参数要计算方便，在保持高识别率的情况下。最好有高效的计算方法。有高效的计算方法。上页上页下页下页节节末页末页结束结束特征提取的方法特征提取的方法一、线性预测系数（一、线性预测系数（LPC）二、二、LPC倒谱系数（倒谱系数

9、（LPCC）三、三、Mel频率倒谱系数（频率倒谱系数（MFCC）四、四、LPC梅尔倒谱系数（梅尔倒谱系数（LPCC）五、五、zcpa特征特征上页上页下页下页节节末页末页结束结束LPC 倒谱依据语音信号产生的生理和数学模型可知，语音信号是音依据语音信号产生的生理和数学模型可知，语音信号是音源激励分量与声道冲激响应、辐射模型三者相卷积的产物。源激励分量与声道冲激响应、辐射模型三者相卷积的产物。因此通过语音信号的倒谱分析可有效地分离激励成分与声道因此通过语音信号的倒谱分析可有效地分离激励成分与声道成分。成分。计算语音信号的倒谱通常有两种方法：其一是先对语音信计算语音信号的倒谱通常有两种方法：其一

10、是先对语音信号进行短时付里叶变换，取其模的对数值，再进行反变换，号进行短时付里叶变换，取其模的对数值，再进行反变换，得其倒谱。声道信息可通过低时窗取出。得其倒谱。声道信息可通过低时窗取出。其二是依据其二是依据AR模型对模型对LPC参数进行递推，形成参数进行递推，形成LPC倒谱，倒谱，LPC 倒谱（倒谱（LPCC）由于利用了线性预测中声道系统函数的）由于利用了线性预测中声道系统函数的最小相位特性，避免了复杂的相位卷积和复对数计算；且最小相位特性，避免了复杂的相位卷积和复对数计算；且LPC倒谱的运算量仅是用倒谱的运算量仅是用FFT 求倒谱时运算量的一半，适于求倒谱时运算量的一半，适于实时应用，它的

11、递推式如下实时应用，它的递推式如下:上页上页下页下页节节末页末页结束结束式中a1ap为p阶LPC的特征向量。上页上页下页下页节节末页末页结束结束识别方法介绍识别方法介绍一般来说，语音识别的方法有四种一般来说，语音识别的方法有四种：（1）基于声道模型和语音知识的方法）基于声道模型和语音知识的方法（2）模式匹配方法）模式匹配方法（3）统计型模型方法）统计型模型方法（4）人工神经网络方法）人工神经网络方法上页上页下页下页节节末页末页结束结束基于声道模型和语音知识的方法起步较早，在语音识别基于声道模型和语音知识的方法起步较早，在语音识别技术提出的开始，就有了这方面的研究，但由于其模型及语技术提

12、出的开始，就有了这方面的研究，但由于其模型及语音知识过于复杂，现阶段没有达到实用的阶段音知识过于复杂，现阶段没有达到实用的阶段。模式匹配常用的技术有动态时间规整（模式匹配常用的技术有动态时间规整（DTWDTW）和矢量量化）和矢量量化（VQVQ）；统计型模型方法常见的是隐马尔可夫模型；语音识；统计型模型方法常见的是隐马尔可夫模型；语音识别常用的神经网络有反向传播（别常用的神经网络有反向传播（BPBP）神经网络，径向基函数）神经网络，径向基函数网络（网络（RBFRBF）及新兴的小波网络（）及新兴的小波网络（这两年很少有人用这两年很少有人用）。）。上页上页下页下页节节末页末页结束结束动态时间规整

13、（动态时间规整（DTWDTW）动态时间弯折是一种效果非常好的非线性时间规整模动态时间弯折是一种效果非常好的非线性时间规整模板匹配法。例如对于孤立词识别系统，将每个词重复多遍发板匹配法。例如对于孤立词识别系统，将每个词重复多遍发音，直到得到一个一致性较好的特征矢量序列，从而形成一音，直到得到一个一致性较好的特征矢量序列，从而形成一个模板，在识别时，待识别矢量序列用个模板，在识别时，待识别矢量序列用DTW算法分别求得与算法分别求得与每个模板的累计失真，然后判别它属于哪一类。每个模板的累计失真，然后判别它属于哪一类。上页上页下页下页节节末页末页结束结束矢量量化（矢量量化（VQVQ）DTW方法是针对

14、时间对准问题的，我们希望不考虑时间方法是针对时间对准问题的，我们希望不考虑时间顺序任意指定时间对准点，这意味着没有任何时间归一化的顺序任意指定时间对准点，这意味着没有任何时间归一化的处理。矢量量化就时完全忽略时间信息的一种方法。对于孤处理。矢量量化就时完全忽略时间信息的一种方法。对于孤立词，首先为词会表中的每个但词建立一个码本，这些码本立词，首先为词会表中的每个但词建立一个码本，这些码本是分离的，它们即为每个单词的模板，识别过程指不过是搜是分离的，它们即为每个单词的模板，识别过程指不过是搜寻誉为指单词有最佳拟合的码本问题，即每个输入矢量必须寻誉为指单词有最佳拟合的码本问题，即每个输入矢量必须和

15、每个码本所有码字进行比较。和每个码本所有码字进行比较。上页上页下页下页节节末页末页结束结束神经网络神经网络关于神经网络在语音信号处理中的应用研究十分关于神经网络在语音信号处理中的应用研究十分活跃，其中以在语音识别方面的应用最令人瞩目。活跃，其中以在语音识别方面的应用最令人瞩目。目前，主要是从听觉神经模型中得到启发，以便构目前，主要是从听觉神经模型中得到启发，以便构成一些具有类似能力的人工系统，使它们在解决语成一些具有类似能力的人工系统，使它们在解决语音信号处理音信号处理(特别是识别特别是识别)问题时能得到较好的性能。问题时能得到较好的性能。研究神经网络以探索人的听觉神经机理，改进现有研究神经

16、网络以探索人的听觉神经机理，改进现有语音语音识别系统的性能，是当前语音识别研究的语音语音识别系统的性能，是当前语音识别研究的一个重要方向。在模式识别的应用中一个重要方向。在模式识别的应用中,多采用多采用BP网和网和RBF网等前向神经网络来实现。网等前向神经网络来实现。上页上页下页下页节节末页末页结束结束RBF网络拓扑结构上页上页下页下页节节末页末页结束结束RBF神经网络的特点径向基函数神经网络径向基函数神经网络(简称简称RBFNN)是一种三层前向神经网络。是一种三层前向神经网络。它的隐层激活函数是一种径向对称的核函数。当输入样本传播到它的隐层激活函数是一种径向对称的核函数。当输入样本传播

17、到隐单元空间时隐单元空间时,这组核函数构成了输入样本的一组这组核函数构成了输入样本的一组“基基”。因此。因此,这这种神经网络称为径向基函数神经网络。种神经网络称为径向基函数神经网络。RBFNN具有以下特点具有以下特点:是一种静态网络；是一种静态网络；与函数逼近理论相吻合；与函数逼近理论相吻合；具有唯一最佳逼近点；具有唯一最佳逼近点；网络连接权值与输出呈线性关系。网络连接权值与输出呈线性关系。径向基网络与一般的三层径向基网络与一般的三层BP网结构很相似，区别有两点：网结构很相似，区别有两点：1.输入层到隐层之间权值固定为输入层到隐层之间权值固定为1，只有隐层到输出层之间的，只有隐层到输出层之间的

18、全值可调节。全值可调节。2.隐层神经元的激活函数不同，它用一种具有局部作用性质的隐层神经元的激活函数不同，它用一种具有局部作用性质的函数代替了函数代替了BP网常用的网常用的Sigmoid函数。函数。RBF网最常用的激活函数是网最常用的激活函数是高斯函数。高斯函数。上页上页下页下页节节末页末页结束结束从上面的分析可知，RBF 网络由两部分组成（设输入维数为 p，隐单元数为 m，输出维数为 q）：第一部分：从输入空间到隐含层空间的非线性变换层第 i 个隐单元输出为:上页上页下页下页节节末页末页结束结束其中：g(.)为隐单元的变换函数（即径向基函数），一般取为 Gauss 函数，即 x 为

19、p 维的输入向量，即为第 i 个非线性变化单元的“中心”向量。为非线性变化单元的宽度。上页上页下页下页节节末页末页结束结束第二部分：从隐含层空间到输出层空间的线性合并层第 j 个输出其中：为第 i 个隐单元与第 j 个输出之间的连接权值；y 为 q 维的输出向量,即。上页上页下页下页节节末页末页结束结束在在RBFRBF网络中可以调整的参数有：隐节点激网络中可以调整的参数有：隐节点激励函数，隐节点中心和半径，隐层节点个数和励函数，隐节点中心和半径，隐层节点个数和隐层至输出的连接权值。隐层至输出的连接权值。RBFRBF网络的学习方法网络的学习方法有两种：有两种：1 1参数同时训练。参数

20、同时训练。2 2两阶段训练。两阶段训练。确定每个确定每个RBFRBF隐单元的中心和半径；隐单元的中心和半径；调节权值矩阵（线性最小二乘法）。调节权值矩阵（线性最小二乘法）。RBF网络的学习上页上页下页下页节节末页末页结束结束基于RBF网络的语音识别原理图上页上页下页下页节节末页末页结束结束第一步：提取特征第一步：提取特征第二步：确定网络结构第二步：确定网络结构第三步：确定隐函数中心（聚类方法）第三步：确定隐函数中心（聚类方法）第四步：确定半径（根据公式第四步：确定半径（根据公式）第五步：训练隐层到输出层的连接权值第五步：训练隐层到输出层的连接权值(最小二乘法最小二乘法)第六步：对测试集单

21、词进行识别第六步：对测试集单词进行识别实验步骤上页上页下页下页节节末页末页结束结束K均值聚类算法均值聚类算法步骤（步骤（LBGLBG算法）：算法）：即按照一定的失真测度，对训练数据进行分类，从而把训练数据在多维空间中划分成一个个以形心（码字）为中心的胞腔。这个过程需要一个由大量的矢量构成的样本集，经过统计实验后确定出各个胞腔的中心矢量。下面是LBG算法的具体步骤：上页上页下页下页节节末页末页结束结束初始化：初始化：采用某种适当的方法选一个包含采用某种适当的方法选一个包含N个码个码字的初始码本矢量。字的初始码本矢量。分类分类：按最近邻按最近邻(Nearest Neighbor)准则准则,以

22、码字以码字为中心，将训练矢量集中的所有矢量分到各个胞腔为中心，将训练矢量集中的所有矢量分到各个胞腔中，形成中，形成N个区域。个区域。产生新码本：重新计算每个区域新的中心，并以产生新码本：重新计算每个区域新的中心，并以此作为该区域的新码字。计算所有训练矢量的总失此作为该区域的新码字。计算所有训练矢量的总失真度。真度。结束判断：结束判断：判断这一次的总失真测度比上次总失判断这一次的总失真测度比上次总失真测度下降至是否达到预先设定的某一阈值，如果真测度下降至是否达到预先设定的某一阈值，如果达到阈值则停止，否则转步骤达到阈值则停止，否则转步骤2。上页上页下页下页节节末页末页结束结束改进的RBF算法 1.K-均值法是一种无监督的学习算法，均值法是一种无监督的学习算法，在学习过程中并没有充分利用样本给出在学习过程中并没有充分利用样本给出的信息，识别效果不理想。所以采用有的信息，识别效果不理想。所以采用有监督地选取隐层各单元的中心监督地选取隐层各单元的中心(逐级均值逐级均值聚类算法聚类算法)。2.基于小波神经网络的改进基于小波神经网络的改进

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

11.9 金币

版权申诉 word格式文档无特别注明外均可编辑修改；预览文档经过压缩，下载后原文更清晰！ 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 语音识别综述语音识别综述 PPT 课件

得力文库 - 分享文档赚钱的网站所有资源均是用户自行上传分享，仅供网友学习交流，未经上传用户书面授权，请勿作他用。

限制150内

关于本文

本文标题：《语音识别综述》PPT课件.ppt
链接地址：https://www.deliwenku.com/p-70499500.html