《语音识别综述》PPT课件.ppt
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_05.gif)
《《语音识别综述》PPT课件.ppt》由会员分享,可在线阅读,更多相关《《语音识别综述》PPT课件.ppt(25页珍藏版)》请在得力文库 - 分享文档赚钱的网站上搜索。
1、上页上页 下页下页节节末页末页结束结束语音识别算法综述语音识别算法综述上页上页 下页下页节节末页末页结束结束语音识别的分类语音识别的分类一、从识别单位分为以下几类一、从识别单位分为以下几类1.孤立词语音识别。识别的单词间有停顿。孤立词语音识别。识别的单词间有停顿。2.连接词语音识别。在连续语音中识别出其包含的几个或某几连接词语音识别。在连续语音中识别出其包含的几个或某几个词。个词。3.连续语音识别。识别的单词之间没有停顿。连续语音识别。识别的单词之间没有停顿。4.语音理解。在语音识别的基础上,用语言学知识推断出语音语音理解。在语音识别的基础上,用语言学知识推断出语音的含义。的含义。二、从识别的
2、词汇量可以分为小词汇(二、从识别的词汇量可以分为小词汇(1050个)、中词汇(个)、中词汇(50200个)、大词汇(个)、大词汇(200个以上)等三类。个以上)等三类。三、按讲话人范围可以分为特定讲话人和非特定讲话人两类。三、按讲话人范围可以分为特定讲话人和非特定讲话人两类。不仅仅这三种分类方法,我们还可以从识别方法、识别环境、不仅仅这三种分类方法,我们还可以从识别方法、识别环境、说话人类型等方面进行分类。说话人类型等方面进行分类。上页上页 下页下页节节末页末页结束结束语音识别技术的发展方向语音识别技术的发展方向一、大词汇量连续语音识别系统,主要应用于计算机的听写,一、大词汇量连续语音识别系统
3、,主要应用于计算机的听写,以及与电话网或者互联网相结合的语音信息查询服务系统,这以及与电话网或者互联网相结合的语音信息查询服务系统,这些系统都是在计算机平台上实现的。些系统都是在计算机平台上实现的。二、小型化、便携式语音产品的应用,如无线手机上的拨号、二、小型化、便携式语音产品的应用,如无线手机上的拨号、汽车设备的语音控制、智能玩具、家电遥控等方面的应用,这汽车设备的语音控制、智能玩具、家电遥控等方面的应用,这些应用系统大都是使用专门的硬件系统实现。些应用系统大都是使用专门的硬件系统实现。语音识别与语言学和人工智能有密切联系。语音识别的重大进语音识别与语言学和人工智能有密切联系。语音识别的重大
4、进展可能并不是来自分析、自适应模式匹配及计算机运算等方面展可能并不是来自分析、自适应模式匹配及计算机运算等方面的进一步研究,而是来自语言感知、语言产生、语音学、语言的进一步研究,而是来自语言感知、语言产生、语音学、语言学及心理学的研究。学及心理学的研究。上页上页 下页下页节节末页末页结束结束语音识别的原理语音识别的原理上页上页 下页下页节节末页末页结束结束预处理预处理 待识别的语音经过话筒变成电信号后加在识别系统的输入端,待识别的语音经过话筒变成电信号后加在识别系统的输入端,首先要经过预处理。预处理包括反混叠失真滤波、预加重和端首先要经过预处理。预处理包括反混叠失真滤波、预加重和端点检测。经过
5、预处理后,按照一定的特征提取方法产生语音特点检测。经过预处理后,按照一定的特征提取方法产生语音特征参数,这些特征参数的时间序列便构成了待识别语音模式,征参数,这些特征参数的时间序列便构成了待识别语音模式,将其与已经存储在的参考模式逐一进行比较(模式匹配),最将其与已经存储在的参考模式逐一进行比较(模式匹配),最佳(由判决规则确定)的参考模式便是识别结果。参考模式是佳(由判决规则确定)的参考模式便是识别结果。参考模式是在系统使用前获得并存储起来的,为此,要输入一系列已知语在系统使用前获得并存储起来的,为此,要输入一系列已知语音信号,提取它们的特征作为参考模式,这一过程称为训练。音信号,提取它们的
6、特征作为参考模式,这一过程称为训练。语音识别所遇的难题是搜索最佳识别结果和参数训练。目前,语音识别所遇的难题是搜索最佳识别结果和参数训练。目前,语音识别所应用的模式匹配和模型训练技术主要有动态时间规语音识别所应用的模式匹配和模型训练技术主要有动态时间规整技术(整技术(DTW)、隐马尔科夫模型()、隐马尔科夫模型(HMM)和人工神经网络。)和人工神经网络。上页上页 下页下页节节末页末页结束结束特征提取特征提取 特征提取就是对语音信号进行分析处理,去除语音识别无特征提取就是对语音信号进行分析处理,去除语音识别无关紧要的冗余信息,获得影响语音识别的重要信息。特征提关紧要的冗余信息,获得影响语音识别的
7、重要信息。特征提取一般要解决两个问题,一个是从语音信号中提取有代表性取一般要解决两个问题,一个是从语音信号中提取有代表性的合适的特征参数,另一个是进行适当的数据压缩。目前,的合适的特征参数,另一个是进行适当的数据压缩。目前,语音识别技术中应用最流行的特征参数是基于人的声道模型语音识别技术中应用最流行的特征参数是基于人的声道模型和听觉机理的和听觉机理的LPCC,LPCMCC,MFCC和和ZCPA。语音特征的参数是分帧提取的,每帧特征参数一般构成一个语音特征的参数是分帧提取的,每帧特征参数一般构成一个矢量序列。语音信号中提取出来的矢量序列经过数据压缩后矢量序列。语音信号中提取出来的矢量序列经过数据
8、压缩后便成为语音的模板,显然,特征的选取对识别效果至关重要,便成为语音的模板,显然,特征的选取对识别效果至关重要,选择的标准应尽量满足一下两个要求:选择的标准应尽量满足一下两个要求:(1)能有效的代表语音特征,包括声道特征和听觉特征,具)能有效的代表语音特征,包括声道特征和听觉特征,具有很好的区分性。有很好的区分性。(2)特征参数要计算方便,在保持高识别率的情况下。最好)特征参数要计算方便,在保持高识别率的情况下。最好有高效的计算方法。有高效的计算方法。上页上页 下页下页节节末页末页结束结束特征提取的方法特征提取的方法一、线性预测系数(一、线性预测系数(LPC)二、二、LPC倒谱系数(倒谱系数
9、(LPCC)三、三、Mel频率倒谱系数(频率倒谱系数(MFCC)四、四、LPC梅尔倒谱系数(梅尔倒谱系数(LPCC)五、五、zcpa特征特征上页上页 下页下页节节末页末页结束结束LPC 倒谱 依据语音信号产生的生理和数学模型可知,语音信号是音依据语音信号产生的生理和数学模型可知,语音信号是音源激励分量与声道冲激响应、辐射模型三者相卷积的产物。源激励分量与声道冲激响应、辐射模型三者相卷积的产物。因此通过语音信号的倒谱分析可有效地分离激励成分与声道因此通过语音信号的倒谱分析可有效地分离激励成分与声道成分。成分。计算语音信号的倒谱通常有两种方法:其一是先对语音信计算语音信号的倒谱通常有两种方法:其一
10、是先对语音信号进行短时付里叶变换,取其模的对数值,再进行反变换,号进行短时付里叶变换,取其模的对数值,再进行反变换,得其倒谱。声道信息可通过低时窗取出。得其倒谱。声道信息可通过低时窗取出。其二是依据其二是依据AR模型对模型对LPC参数进行递推,形成参数进行递推,形成LPC倒谱,倒谱,LPC 倒谱(倒谱(LPCC)由于利用了线性预测中声道系统函数的)由于利用了线性预测中声道系统函数的最小相位特性,避免了复杂的相位卷积和复对数计算;且最小相位特性,避免了复杂的相位卷积和复对数计算;且LPC倒谱的运算量仅是用倒谱的运算量仅是用FFT 求倒谱时运算量的一半,适于求倒谱时运算量的一半,适于实时应用,它的
11、递推式如下实时应用,它的递推式如下:上页上页 下页下页节节末页末页结束结束式中a1ap为p阶LPC的特征向量。上页上页 下页下页节节末页末页结束结束识别方法介绍识别方法介绍一般来说,语音识别的方法有四种一般来说,语音识别的方法有四种:(1)基于声道模型和语音知识的方法)基于声道模型和语音知识的方法(2)模式匹配方法)模式匹配方法(3)统计型模型方法)统计型模型方法(4)人工神经网络方法)人工神经网络方法上页上页 下页下页节节末页末页结束结束 基于声道模型和语音知识的方法起步较早,在语音识别基于声道模型和语音知识的方法起步较早,在语音识别技术提出的开始,就有了这方面的研究,但由于其模型及语技术提
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 语音识别综述 语音 识别 综述 PPT 课件
![提示](https://www.deliwenku.com/images/bang_tan.gif)
限制150内