当前位置:文档之家› 新语音信号处理实验指导2015年秋讲解

新语音信号处理实验指导2015年秋讲解

新语音信号处理实验指导2015年秋讲解
新语音信号处理实验指导2015年秋讲解

《语音信号处理》

实验指导书

哈尔滨理工大学

自动化学院

电子信息科学与技术系

2014.10

语音信号处理是研究用数字信号处理技术和语音学知识对语音信号进行处理的新兴的学科,是目前发展最为迅速的信息科学研究领域的核心技术之一。通过语音传递信息是人类最重要、最有效、最常用和最方便的交换信息形式。同时,语言也是人与机器之间进行通信的重要工具,它是一种理想的人机通信方式,因而可为信息处理系统建立良好的人机交互环境,进一步推动计算机和其他智能机器的应用,提高社会的信息化程度。语音信号处理是一门新兴的学科,同时又是综合性的多学科领域和涉及面很广的交叉学科。虽然从事这一领域研究的人员主要来自信号与信息处理及计算机应用等学科,但是它与语音学、语言学、声学、认知科学、生理学、心理学等许多学科也有非常密切的联系。

20世纪60年代中期形成的一系列数字信号处理的理论和算法,如数字滤波器、快速傅立叶变换(FFT)等是语音信号数字处理的理论和技术基础。随着信息科学技术的飞速发展,语音信号处理取得了重大的进展:进入70年代之后,提出了用于语音信号的信息压缩和特征提取的线性预测技术(LPC),并已成为语音信号处理最强有力的工具,广泛应用于语音信号的分析、合成及各个应用领域,以及用于输入语音与参考样本之间时间匹配的动态规划方法;80年代初一种新的基于聚类分析的高效数据压缩技术—矢量量化(VQ)应用于语音信号处理中;而用隐马尔可夫模型(HMM)描述语音信号过程的产生是80年代语音信号处理技术的重大发展,目前HMM已构成了现代语音识别研究的重要基石。近年来人工神经网络(ANN)的研究取得了迅速发展,语音信号处理的各项课题是促进其发展的重要动力之一,同时,它的许多成果也体现在有关语音信号处理的各项技术之中。

为了深入理解语音信号数字处理的基础理论、算法原理、研究方法和难点,根据数字语音信号处理教学大纲,结合课程建设的需求,我们编写了本实验指导书。

实验一 基于MATLAB 的语音信号时域特征分析

一、实验目的:

语音信号是一种非平稳的时变信号,它携带着各种信息。在语音编码、语音合成、语音识别和语音增强等语音处理中无一例外需要提取语音中包含的各种信息。语音信号分析的目的就在与方便有效的提取并表示语音信号所携带的信息。语音信号分析可以分为时域和变换域等处理方法,其中时域分析是最简单的方法,直接对语音信号的时域波形进行分析,提取的特征参数主要有语音的短时能量,短时平均过零率,短时自相关函数等。

本实验要求掌握时域特征分析原理,并利用已学知识,编写程序求解语音信号的短时过零率、短时能量、短时自相关特征,分析实验结果,并能掌握借助时域分析方法所求得的参数分析语音信号的基音周期及共振峰。

二、实验原理:

1.窗口的选择

通过对发声机理的认识,语音信号可以认为是短时平稳的。在5~50ms 的范围内,语音频谱特性和一些物理特性参数基本保持不变。我们将每个短时的语音称为一个分析帧。一般帧长取10~30ms 。我们采用一个长度有限的窗函数来截取语音信号形成分析帧。通常会采用矩形窗和汉明窗。

矩形窗的定义:一个N 点的矩形窗函数定义为如下:

公式1: 1 0() 0 n N w n ≤≤?=??

其它, , hamming 窗的定义:一个N 点的hamming 窗函数定义为如下: 公式2:()0.540.46 cos 2π/1 0() 0 n N n N w n ?--≤≤?????=???其它,

2.短时能量

由于语音信号的能量随时间变化,清音和浊音之间的能量差别相当显著。因此对语音的短时能量进行分析,可以描述语音的这种特征变化情况。定义短时能量为: 公式3: )]()([ )]()([)1(22∑∑--=+∞-∞=-=-=

n

N n m m n m n w m x m n w m x E 特殊地,当采用矩形窗时,可简化为:

公式4: )()1(2∑--==

n

N n m n m x E 3.短时平均过零率

过零率可以反映信号的频谱特性。当离散时间信号相邻两个样点的正负号相异时,我们称之为“过零”,即此时信号的时间波形穿过了零电平的横轴。统计单位时间内样点值改变符号的次数具可以得到平均过零率。定义短时平均过零率:

公式5:

()()()

()()()sgn sgn 1sgn sgn 1*n m Z x m x m w n m x n x n w n

+∞=-∞=

---????????=--????????∑ 在矩形窗的条件下,可以简化为:

公式6:

()[]()[]∑--=-=n

N n m n m x m x N Z )1(|1-sgn sgn | 21

短时过零率可以粗略估计语音的频谱特性。由语音的产生模型可知,发浊音时,声带振动,尽管声道有多个共振峰,但由于声门波引起了频谱的高频衰落,因此浊音能量集中于3KZ 以下。而清音由于声带不振动,声道的某些部位阻塞气流产生类白噪声,多数能量集中在较高频率上。高频率对应着高过零率,低频率对应着低过零率,那么过零率与语音的清浊音就存在着对应关系。

4.短时自相关函数

自相关函数用于衡量信号自身时间波形的相似性。清音和浊音的发声机理不同,因而在波形上也存在着较大的差异。浊音的时间波形呈现出一定的周期性,波形之间相似性较好;清音的时间波形呈现出随机噪声的特性,样点间的相似性较差。因此,我们用短时自相关函数来测定语音的相似特性。短时自相关函数定义为:

公式7: ()()()()() n m R k x m w n m x m k w n k m +∞

=-∞=

-+--∑ 令:'m n m =+,并且()()w m w m '-=,可以得到:

()()()()()10 N k

n m R k x n m w m x n m k w k m --=''=++++????????∑

三、实验内容:

(1) 用Matlab绘出图1.1——这两种窗函数在帧长N=50时的时域波形。

(2) 用Matlab绘出图1.2——这两种窗函数的频率响应幅度特性。这两种窗函数都有低通特性,通过分析这两种窗的频率响应幅度特性。

(3) 用MA TLAB绘出图1.3和图1.4——给出了不同矩形窗和hamming窗长的短时能量函数,分析在用短时能量反映语音信号的幅度变化时,不同的窗函数以及相应窗的长短均有影响。以及总结短时能量函数的应用。

(4) 用MA TLAB绘出图1.5——某一语音在矩形窗条件下求得的短时能量和短时平均过零率。分析清音和浊音的短时能量,过零率。总结短时平均过零率的应用。

(5) 用MATLAB绘出图1.6——给出了清音的短时自相关函数波形,用MA TLAB绘出图——1.7给出了不同矩形窗长条件下(窗长分别为N=70,N=140,N=210,N=280)浊音的短时自相关函数波形。由图1.6、图1.7短时自相关函数波形分析判断一个语音信号是清音还是浊音,还可以判断浊音的基音周期。

四、实验要求:

(1) 撰写预习报告。

(2) 用Matlab完成算法设计和程序设计并上机调试通过。

(3) 撰写实验报告,简述实验目的及原理,给出理论计算结果和程序计算结果并分析。

实验二 基于MATLAB 分析语音信号频域特征

一、实验目的

信号的傅立叶表示在信号的分析与处理中起着重要的作用。因为对于线性系统来说,可以很方便地确定其对正弦或复指数和的响应,所以傅立叶分析方法能完善地解决许多信号分析和处理问题。另外,傅立叶表示使信号的某些特性变得更明显,因此,它能更深入地说明信号的各项红物理现象。

由于语音信号是随着时间变化的,通常认为,语音是一个受准周期脉冲或随机噪声源激励的线性系统的输出。输出频谱是声道系统频率响应与激励源频谱的乘积。声道系统的频率响应及激励源都是随时间变化的,因此一般标准的傅立叶表示虽然适用于周期及平稳随机信号的表示,但不能直接用于语音信号。由于语音信号可以认为在短时间内,近似不变,因而可以采用短时分析法。

本实验要求掌握傅里叶分析原理,会利用已学的知识,编写程序估计短时谱、倒谱,画出语谱图,并分析实验结果,在此基础上,借助频域分析方法所求得的参数分析语音信号的基音周期或共振峰。

二、实验原理

1.短时傅立叶变换

由于语音信号是短时平稳的随机信号,某一语音信号帧的短时傅立叶变换的定义为: j j (e )[()()]e m n m X x m w n m ω

ω+∞-=-∞=-∑

其中w(n-m)是实窗口函数序列,n 表示某一语音信号帧。令n-m=m',则得到: j ()

-j (e )()() e [

()()]

j n m n m n j m m X x n m w m e x n m w m e ω

ωωω+∞'--'=-∞+∞''=-∞

''=-''=-∑∑ 假定:j j j j (e )()()e e (e )m n n n m X x n m w m X ωωωω+∞''=-∞''=

-=∑

则可得到: j j j j (e )e (e )e [()jb ()]n n n n n n X X a ωωωωωω--=?=-

同样,不同的窗口函数,将得到不同的傅立叶变换式的结果。由上式可见,短时傅立叶变换有两个变量:n 和ω,所以它既是时序n 的离散函数,又是角频率ω的连续函数。

与离散傅立叶变换逼近傅立叶变换一样,如令2πk N ω=,则得离散的短时傅立叶吧如下:

2π2πj j (e )()()()e ,01k

km N N n n m X X k x m w n m k N +∞-=-∞==

-≤≤-∑

2.语谱图

语谱图(Spectrogram )是一种时间依赖于傅里叶分析的显示图像。它是一种三维频谱,可同时在时间和频率上显示语音频谱随时间的变化,其纵轴为频率,横轴为时间;任意给定频率成分在给定时刻的强弱用相应点的灰度或色调的浓度来表示,通过语谱图可以确定共振峰频率及基音频率,确定讲话人的本性。

窄带语谱:带通滤波器45Hz ,有良好的频率分辨率,有利于显示基音频率及各次谐波,但时间分辨率较差,不利于观察共振峰的变化。

宽带语谱:带通滤波器300Hz ,有良好的频率分辨率及较差的频率分辨率给出语音的共振峰频率及清浊音的能量汇聚区,在语谱图中共振峰呈现为条纹。

水平方向是时间轴,垂直方向是频率轴,图上的灰度条纹代表各个时刻的语音短时谱。语谱图反映了语音信号的动态频率特性,在语音分析中具有重要的实用价值。被成为可视语言。

语谱图的时间分辨率和频率分辨率是由窗函数的特性决定的。时间分辨率高,可以看出时间波形的每个周期及共振峰随时间的变化,但频率分辨率低,不足以分辨由于激励所形成的细微结构,称为宽带语谱图;而窄带语谱图正好与之相反。

宽带语谱图可以获得较高的时间分辨率,反映频谱的快速时变过程;窄带语谱图可以获得较高的频率分辨率,反映频谱的精细结构。两者相结合,可以提供带两与语音特性相关的信息。语谱图上因其不同的灰度,形成不同的纹路,称之为“声纹”。声纹因人而异,因此可以在司法、安全等场合得到应用。

3.复倒谱和倒谱

复倒谱

x (n)是x(n)的Z 变换取对数后的逆Z 变换,其表达式如下:

111??()[()][ln ()][ln [()]]x

n z X z z X z z z x n ---=== 倒谱c(n)定义为x(n)取Z 变换后的幅度对数的逆Z 变换,即

πj j -π1()ln |(e )|e d 2π

n c n X ωωω=? 在时域上,语音产生模型实际上是一个激励信号与声道冲激响应的卷积。对于浊音,激励信号可以由周期脉冲序列表示;对于清音,激励信号可以由随机噪声序列表示。声道系统相当于参数缓慢变化的零极点线性滤波器。

由于倒谱对应于复倒谱的偶部,因此倒谱与复倒谱具有同样的特点,很容易知道语音信号的倒谱,浊音信号的倒谱中存在着峰值,它的出现位置等于该语音段的基音周期,而清音的倒谱中则不存在峰值。利用这个特点我们可以进行清浊音的判断,并且可以估

计浊音的基音周期。

三、实验内容:

(1) 利用matlab读取一段语音,并绘制该语音的短时谱。

(2) 绘制该语音的语谱图

(3) 绘制该语音的加矩形窗和汉明窗的倒谱图和复倒谱图,图中横轴的单位是Hz,纵轴的单位是dB。

四、实验要求:

(1) 撰写预习报告。

(2) 用Matlab完成算法设计和程序设计并上机调试通过。

(3) 撰写实验报告,简述实验目的及原理,给出理论计算结果和程序计算结果并分析。

相关主题
文本预览
相关文档 最新文档