语音信号处理课件第三章.ppt
《语音信号处理课件第三章.ppt》由会员分享,可在线阅读,更多相关《语音信号处理课件第三章.ppt(77页珍藏版)》请在第壹文秘上搜索。
1、1第三章第三章 语音信号的短时时域分析语音信号的短时时域分析 3.1 概述概述13.2 语音信号的预处理语音信号的预处理3.3 短时平均能量短时平均能量 33.4 短时平均幅度函数短时平均幅度函数 43.5 短时平均过零率短时平均过零率 5 3.6 短时自相关分析短时自相关分析 62 3.7 基于能量和过零率的语音端点检测基于能量和过零率的语音端点检测7 3.8 基音周期估值基音周期估值 823.1 概述概述 语音信号是一种非平稳的时变信号,它携带语音信号是一种非平稳的时变信号,它携带着各种信息。在语音编码、语音合成、语音识别着各种信息。在语音编码、语音合成、语音识别和语音增强等语音处理中都需
2、要提取语音中包含和语音增强等语音处理中都需要提取语音中包含的各种信息。的各种信息。语音处理的目的:对语音信号进行分析,提语音处理的目的:对语音信号进行分析,提取特征参数,用于后续处理;加工语音信号。取特征参数,用于后续处理;加工语音信号。总之,语音信号分析的目的就在于方便有效总之,语音信号分析的目的就在于方便有效的提取并表示语音信号所携带的信息。的提取并表示语音信号所携带的信息。3 根据所分析的参数类型,语音信号分析可以根据所分析的参数类型,语音信号分析可以分成时域分析和变换域(频域、倒谱域)分析。分成时域分析和变换域(频域、倒谱域)分析。其中时域分析方法是最简单、最直观的方法,它其中时域分析
3、方法是最简单、最直观的方法,它直接对语音信号的时域波形进行分析,提取的特直接对语音信号的时域波形进行分析,提取的特征参数主要有语音的短时能量和平均幅度、短时征参数主要有语音的短时能量和平均幅度、短时平均过零率、短时自相关函数和短时平均幅度差平均过零率、短时自相关函数和短时平均幅度差函数等。函数等。43.2 语音信号的预处理语音信号的预处理 在对语音信号进行数字处理之前,首先要将在对语音信号进行数字处理之前,首先要将模拟语音信号模拟语音信号s(t)离散化为离散化为s(n).实际中获得数字实际中获得数字语音的途径一般有两种,正式的和非正式的。语音的途径一般有两种,正式的和非正式的。正式的是指大公司
4、或语音研究机构发布的被正式的是指大公司或语音研究机构发布的被大家认可的语音数据库,非正式的则是研究者个大家认可的语音数据库,非正式的则是研究者个人用录音软件或硬件电路加麦克风随时随地录制人用录音软件或硬件电路加麦克风随时随地录制的一些发音或语句。的一些发音或语句。5 语音信号的频率范围通常是语音信号的频率范围通常是3003400Hz,一,一般情况下取采样率为般情况下取采样率为8kHz即可。本书的数字语音即可。本书的数字语音处理对象为语音数据文件,是已经数字化了的语处理对象为语音数据文件,是已经数字化了的语音。音。有了语音数据文件后,对语音的预处理包括:有了语音数据文件后,对语音的预处理包括:预
5、加重、加窗分帧等。预加重、加窗分帧等。63.2.1 语音信号的预加重处理语音信号的预加重处理 预加重目的:为了对语音的高频部分进行加重,预加重目的:为了对语音的高频部分进行加重,去除口唇辐射的影响,增加语音的高频分辨率。去除口唇辐射的影响,增加语音的高频分辨率。可通过一阶可通过一阶FIR高通数字滤波器来实现:高通数字滤波器来实现:1()1H zz 设设n时刻的语音采样值为时刻的语音采样值为x(n),经过预加重处理后经过预加重处理后的结果为的结果为 ()()(1)y nx nx n7高通滤波器的幅频特性和相频特性如下高通滤波器的幅频特性和相频特性如下 8预加重前和预加重后的一段语音信号时域波形预
6、加重前和预加重后的一段语音信号时域波形 9 预加重前和预加重后的一段语音信号频谱预加重前和预加重后的一段语音信号频谱 103.2.2 语音信号的加窗处理语音信号的加窗处理 由于发音器官的惯性运动,可以认为在一小由于发音器官的惯性运动,可以认为在一小段时间里(一般为段时间里(一般为10ms30ms)语音信号近似不)语音信号近似不变,即语音信号具有短时平稳性。这样,可以把变,即语音信号具有短时平稳性。这样,可以把语音信号分为一些短段(称为分析帧)来进行处语音信号分为一些短段(称为分析帧)来进行处理。理。11 语音信号的分帧实现方法:语音信号的分帧实现方法:采用可移动的有限长度窗口进行加权的方法采用
7、可移动的有限长度窗口进行加权的方法来实现的。一般每秒的帧数约为来实现的。一般每秒的帧数约为33100帧。帧。分帧一般采用交叠分段的方法,这是为了使分帧一般采用交叠分段的方法,这是为了使帧与帧之间平滑过渡,保持其连续性。前一帧和帧与帧之间平滑过渡,保持其连续性。前一帧和后一帧的交叠部分称为帧移,帧移与帧长的比值后一帧的交叠部分称为帧移,帧移与帧长的比值一般取为一般取为01/2。12图图3.3给出了帧移与帧长示意图。给出了帧移与帧长示意图。13加窗常用的两种方法:加窗常用的两种方法:矩形窗,窗函数如下:矩形窗,窗函数如下:其它 010 1)(Nnnw汉明汉明(Hamming)窗,窗函数如下窗,窗函
8、数如下 0.540.46 cos 2/1 0()0 nNnNw n其它,14矩形窗及其频谱如下矩形窗及其频谱如下15汉明窗及其频谱如下汉明窗及其频谱如下思考:思考:两种窗效果有何异同?两种窗效果有何异同?1617加窗方法示意图:加窗方法示意图:18窗长的选择窗长的选择 一般选取一般选取100200。原因如下:。原因如下:当窗较宽时,平滑作用大,能量变化不大,当窗较宽时,平滑作用大,能量变化不大,故反映不出能量的变化。故反映不出能量的变化。当窗较窄时,没有平滑作用,反映了能量的当窗较窄时,没有平滑作用,反映了能量的快变细节,而看不出包络的变化。快变细节,而看不出包络的变化。19 语音信号的分帧处
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 语音 信号 处理 课件 第三