当前位置:文档之家› 采用短时傅立叶变换方法的电子耳蜗语音处理技术

采用短时傅立叶变换方法的电子耳蜗语音处理技术

采用短时傅立叶变换方法的电子耳蜗语音处理技术
采用短时傅立叶变换方法的电子耳蜗语音处理技术

收稿日期:2006-09-26;修回日期:2006-12-31

作者简介:陈红芳(1981-),女,云南人,汉族,硕士,研究生,研究方向为

电子耳蜗语音处理技术。

通信作者:陈红芳,E-mail:emilyfang81@126.com

引言

电子耳蜗是用有限个电极刺激听神经以恢复全聋人听觉的装置,其基本原理是模仿人的听觉外周神经机制,用微弱电流脉冲直接刺激和兴奋聋人耳蜗内的听神经,使聋人恢复听觉。听力受损一般可以分为两大类型:一类为传导性听力损失,它是由听力系统中的机械通道受到阻碍,使声音无法到达耳蜗内毛细胞所造成的,对于这类情况,可通过

助听装置或用手术解决。另一类为神经性听力损

失,表现为耳蜗内毛细胞或听神经纤维受损,这类疾病破坏了声波转换成生物电脉冲的机制,故助听装置对其不起作用。在这类神经性听力损失中,听神经纤维受损者所占的比例很小,目前尚无有效的解决方法。毛细胞受损者的情况比较常见,可通过电子耳蜗模仿听觉外周神经机制,对残留听觉神经进行电刺激,使患者恢复听觉。实践证明,电子耳蜗可以在某种程度上恢复全聋人的语言理解能力,特别是对全聋的儿童,若在早期植入这种装置,经过训练,会达到比较好的效果[1]。

虽然人工耳蜗装置能使聋人从严重依赖社会中解放出来,但是其昂贵的价格还是使得大部分聋

摘要:电子耳蜗是用有限个电极刺激听神经以恢复全聋人听觉的装置,目前发展的关键目标是研制出可靠、灵活、价格低廉的产品。在介绍了电子耳蜗的原理和语音信号处理方案的发展的基础上,研究了采用短时傅立叶变换方法的电子耳蜗语音处理技术。据此法分析提取参数用以刺激耳蜗内的听神经,使聋人恢复听觉,该技术的优点在于:能根据每个耳聋病人的毛细胞和神经残留多少等情况的不同来灵活的选择刺激参数,达到较好的语音识别效果。关键词:电子耳蜗;短时傅立叶变换(STFT);语音信号处理;语音识别中图分类号:TN911.7

文献标识码:A

文章编号:1000-3630(2007)-03-0442-05

PerformanceofSTFTinspeechprocessing

usedforcochlearimplant

CHENHong-fang,FENGHai-hong,XUHai-dong

第26卷第3期2007年6月

声学技术

TechnicalAcoustics

Vol.26,No.3Jun.,2007

采用短时傅立叶变换方法的电子耳蜗语音处理技术

(中国科学院声学研究所东海研究站,上海200032)

陈红芳,冯海泓,徐海东

(ShanghaiAcousticsLaboratory,ChineseAcademyofSciences,Shanghai,200032,China)

Abstract:Electroniccochlearimplantisanelectronicdeviceforrestoringdeafpeople′shearingwithlim-itedelectrodesimplantedintheircochlear.Thepurposeofthepresentworkistodevelopaflexiblepro-ductwithhighreliabilityandreasonableprice.Theprinciplesofthecochlearimplantandthespeechpro-cessingstrategiesarepresented.PerformanceofSTFTmethodinspeechprocessingisproposedforcoch-learimplant.Thismethodisusedforpickingupparametersproperlytostimulatetheauditorynerveofatotallyorseriouslydeafperson,

andhasgreatflexibilitytochoosebasicspeechcharacteristicsbeing

consideredortoadaptspecialstimulationparametersforaspecificpatienttogetbetterspeechrecognition.Keywords:cochlearimplant;short-timeFouriertransform(STFT);speechprocessing;speechrecognition

陈红芳等:采用短时傅立叶变换方法的电子耳蜗语音处理技术第3期

人家庭望而却步。不包括手术和术后康复费用,仅人工耳蜗装置就需25,000美元。这对于世界上发展中国家的80%聋人来说是很不现实的。所以我国如能自行研制可靠、灵活、价格低廉的国产人工电子耳蜗才能造福于广大聋哑人。

2电子耳蜗的原理

正常人感知声音的听觉通路可以分为外耳、中耳、内耳、神经系统和大脑皮层语音中枢等,其中,内耳的耳蜗是听觉的受纳器。外界的声音振动经过鼓膜、3块听小骨传至耳蜗,耳蜗内淋巴液的振动又引起基底膜的上下行波式移动,耳蜗的基底膜上有很多微小的纤毛细胞,这些毛细胞随基底膜波动而摆动,将机械振动转变为电信号,刺激耳蜗内的听神经,这种神经兴奋经神经元传至大脑的语言中枢,就形成了听觉。

耳蜗形似蜗牛壳,耳蜗的基底膜从蜗底到蜗顶逐渐变宽,其上面的毛细胞与听神经纤维相连。研究证明,从蜗底到蜗顶,不同部分感受的音频频率是不同的,蜗底感受的频率较高,而蜗顶则感受较低的频率。因此,耳蜗可以认为是一个空间的频率分析器,只要按照时间次序采样语音信号的语谱图、编码、发送,并且按照耳蜗基底膜的空间频率分布,用接收到的频谱值去直接刺激和兴奋耳蜗的基底膜,就构成了电子耳蜗[2]。

3电子耳蜗语音信号处理方案的发展

国外自50年代后期起,研究者们就开始考虑能否设法复元感觉神经性听觉丧失患者由于听毛细胞缺失残损的电讯号。60年代电子耳蜗的研制已进入了实验性的工作,并初步开发出了较简单的单导刺激耳蜗植片。目前世界上三大电子耳蜗公司是:澳大利亚的Cochlear公司、美国的AdvancedBionics公司和奥地利的MED-EL公司。

电子耳蜗的一个重要的组成部分是语音信号处理方案,它决定了声音在处理器中如何被处理,又如何传递到植入体的电极,在处理过程中原声信息被保留或被丢失的比重,因此语音处理器是电子耳蜗的核心。目前在电子耳蜗中采用的语音信号处理方案主要分为两大类,分别是基于特征提取的方案(从语音信号中提取出能代表不同语音的谱特征信息)和基于滤波器组的方案(通过将语音信号分成多个不同的子频带来得到某些语音信息波形)[3]。

基于特征提取的方案:

主要有F0/F2、F0/F1/F2、F0/F1/F2/F3等方法,其策略是首先提取语音信号中的重要特征,如F0(基频)、F1(第一共振峰)、F2(第二共振峰)和F3(第三共振峰)等,F0决定电极电流脉冲的频率,F1、F2和F3的频点位置与电极的位置相对应,其幅度大小决定刺激脉冲的幅度。还有一种处理方法叫MPEAK(Multipeak,多峰)方案,它是F0/F1/F2/F3方法的一种扩展,在每个刺激周期内激活四个电极,两个电极表示F1和F2,另外两个电极(靠近耳蜗底部)传送2kHz以上的高频信息。在基于特征提取的语音信号处理方案中,首先作语音信号的语谱图,即每隔10ms ̄20ms做一次短时傅立叶变换,然后从每次短时傅立叶变换中提取出F0,Fl,F2,F3等特征频率进行编码,并且发送到体内部分[3]。

基于滤波器组的方案:

后来随着电极数目的增加,又出现了基于滤波器组的人工电子耳蜗语音信号处理方案,如最大谱峰声音处理法(SpectralMaximaSoundProcessor,SMSP)、谱峰法(SpectralPeak,SPEAK)、压缩模拟(CompressedAnalog,CA)方案和连续交替取样(C-ontinuousInterleavedSampling,CIS)方案等。其原理为:语音信号在预加重后由一组带通滤波器分频为N(4~22)个通道,每一通道经过整流、低通滤波后得到各通道的包络信号,并用对数或平方律压缩到适当的动态范围,各通道的包络信号用于控制一组时间上交替的双相脉冲序列来产生电刺激脉冲电流[3]。

表1小结了从早期的基于特征提取到近年的基于滤波器组的各种语音信号处理方案的具体情况。

这些方法虽然在不同时期都获得较好的句子识别率,但其皆缺乏灵活性且较复杂。

年代

80年代初

80年代中

80年代底

90年代初

90年代中

90年代中

1991年

开放句子

识别率

近20%

近40%

近60%

近80%

>80%

>80%

>80%

表1各种现代语音信号处理方案

Table1Speechsignalprocessingstrategies

语音处理

方案类别

基于

特征

提取

基于

滤波

器组

方案

F0/F2(基频/第二共振峰)

F0/F1/F2

(基频/第一/第二共振峰)

MPEAK(多峰)

SMSP(频谱最大值处理器)

SPEAK(谱峰)

ACE(高级结合编码)

CIS(连续相间采样)

443

声学技术2007年

采用短时傅立叶变换方法的电子耳蜗语音处理技术

电子耳蜗系统包括语音处理器、激励发送电路、

解码、刺激电路和电极组等5个部分,如图1所示。其中,语音处理器可以根据不同的语音处理方案,对来自麦克风的语音信号进行分析,产生合适的电刺激信息,通过发送电路将其从体外传送到体内。根据体外传入的电信号,内装置接收、解码信号,并在电极组相应的电极上产生刺激听神经的电脉冲。可见语音信号处理方案是电子耳蜗系统设计的最关键技术之一。

已知体内电极刺激电流幅度是由语音处理器计算得到的,先把语音信号划分成一些子带,每个子带对应一个通道,然后用每个通道相应子带的短时能量来决定刺激脉冲的幅度。这种方法应用于以上所介绍的各种基于滤波器组的方案中。然而,根据致聋原因:可能是由于听觉传导通路中某一部分损伤(传导性耳聋),或者药物致使毛细胞受损,以及毛细胞先天性发育不全(神经性耳聋)等原因造成。但是,多数失聪者的听神经是完好或部分完好的[4]。所以,每个耳聋病人的毛细胞和神经残留数量等情况都大不相同,也就是说我们需要有一种更加灵活简便的方案。

在现代众多的语音信号处理方案中,其成败在于语音特征的提取,而语音特征的提取又在于正确的语音分析,而基于短时傅立叶变换的语谱图分析是语音分析的一种合理的方法。下面首先简单介绍一下短时傅立叶变换的定义和有关计算,然后论述其在电子耳蜗语音处理技术中的应用。

4.1短时傅立叶变换

语音波是一个非平稳过程,因此适用于周期、瞬

变或平稳随机信号的标准傅立叶变换不能用来直接表示语音信号。但是,对语音处理来说,短时分析的方法是有效的解决途径。由于语音信号的特性是随时间缓慢变化的,因而可以假设它在一段短时间内

保持不变。短时分析应用于频域分析就是短时傅立

叶变换,即有限长度的傅立叶变换[5]。

语音信号是局部平稳的,所以可对某一帧语音进行傅立叶变换,即短时傅立叶变换。其定义如下:

Xn(ejw

)=∞

m=-∞

!x(m)w(n-m)e-jwm

(1)

由定义知,短时傅立叶变换是窗选语音信号的标准傅立叶变换。这里用下标n区别于标准的傅立叶变换。式(1)中,w(n-m)是窗口函数序列,不同的窗口函数序列,将得到不同的傅立叶变换的结果。短时傅立叶变换有两个自变量:n和w,所以它既是关于时间n的离散函数,又是关于角频率w的连续函数。如令w=2!k/N,则得离散的短时傅立叶变换:

Xn(e

j2!k

)=Xn(K)=∞

m=-∞

!x(m)w(n-m)e

-j2!k

0≤K≤N-1(2)

由于时-频不确定原理,窗函数长度的选择是十分关键的。对于每一个不同的时间,都可以得到一个不同的频谱,这些频谱的总体就是语音信号的时

频分布,或者称为语谱图。语音信号的谱线是分裂的,依次可以分为F0、F1、F2和F3等等,于是语音的特征参数就可以从中求出。

4.2短时傅立叶变换在电子耳蜗语音处理技术中的应用

根据上节理论知识,用FFT对每帧15ms~30ms

的短时语音信号进行频谱分析,就可得到短时傅立叶变换。得到的频谱按时问排列,就构成了语音信号的实时语谱图。然后根据通道频率划分,通过简单的乘加法运算计算出每个通道的平均能量,就是决定刺激脉冲的幅度。

本次试验中,子带的划分方法如下[9]:通道1:66Hz ̄198Hz通道2:198Hz ̄422Hz通道3:422Hz ̄746Hz通道4:746Hz ̄1282Hz通道5:1282Hz ̄2090Hz通道6:2090Hz ̄3392Hz通道7:3392Hz ̄5398Hz通道8:5398Hz ̄8580Hz

至于方案的实现将在ADI公司的BlackfinBF533处理器中实现,其具体实现步骤如下图2。主要原理为:语音信号数字化后,经自动增益控制和噪声抑制等前期处理后,在DSP芯片内用FFT运算进行频域分析,然后根据以上的通道频率划分,通过

图1

电子耳蜗的系统结构框图

Fig.1Systemstructureof

cochlearimplant

444

陈红芳等:采用短时傅立叶变换方法的电子耳蜗语音处理技术

第3期

简单的乘加法运算计算出每个通道的平均能量。FFT变换是对一帧语音数据进行的,所谓一帧

分析范围,常取32、64、128、512、1024……等2的整指数倍的时间点。帧长数值越大频率分辨率越高,但是时间分辨率越低;数值过小还会使低频成分丢失。最小的帧长至少应该包含乐音的一个基波。帧长大的,频率范围分解出较多区段,因此频率分辨率较高,但是帧长大又使时间段模糊起来了。所以在选择帧长的时候,要折中考虑。这里选择了一帧的长度为1024个点,因为试验中所用的Blackfin处理器最低采样率为48kHz,1024正好满足每帧15ms~

30ms且为2的整指数倍的条件。

根据帕塞伐尔定理:一个序列在时域计算的能量与在频域计算的能量是相等的。即

N-1

n=0

!|x(n)|2

=1NN-1

k=0!|X(k)|2(3)

每个通道的能量为[6]:

Wb=band

!|X(k)|2

(4)

试验结果与分析

图3与图4是依据试验结果画的直方图。几种

信号经各通道后得到的幅度值,均用直方图表示,横轴为对应的通道,纵轴为幅度值。

较典型的信号主要是纯音和复音,纯音就是单一正弦振荡的声波,复音则是由多个正弦波组成的声音。为验证以上算法的正确与否,将这两种信号

作为输入语音信号测试。

图3为把1500Hz纯音信号作为输入语音信号

的测试结果图,从图中可看出第五通道的幅值最大,验证了其正确性,因为1500Hz处在第五通道。

图4为把由200Hz和3000Hz组成的复音信号作为输入语音信号的测试结果图,从图中可看出第二和第六通道的幅值最大,验证了其正确性,因为

200Hz和3000Hz刚好处在第二和第六通道。

验证了其正确性后,下面可观察其运算高效性。在以往的语音信号处理方案中,通道的带通划分采用IIR或者FIR带通滤波器和整流低通滤波提取包络来实现,其原理流程图见下图5所示。

表2为采用上述两种不同方法的运算量的比较结果。从表中可看出:基于FFT变换方法的运算量

基于FFT的语音处理器程序原理框图

Fig.2

BlockdiagramofprogramforspeechprocessorbasedonFFT

图3纯音频率为1500Hz时的结果图

Fig.3Graphicalspectrogramforoneharmonic1500Hz

图4

由200Hz和3000Hz组成的复音的结果图

Fig.4Graphicalspectrogramforcompositesounds

图5

基于滤波器组的语音处理器原理框图

Fig.5

Blockdiagramofspeechprocessorbasedonfilter

445

声学技术2007年

仅为基于滤波器组方法的1/13,大大节省了时间,更加适合于实时处理。

总结

电子耳蜗最重要的一个环节就是语音信号处理方案,本文讨论了一种新的方案:短时傅立叶变换方法,依据它来分析提取参数用以刺激耳蜗内的听神经,使聋人恢复听觉[7]。对于实时数字信号处理,要尽可能做到算法简单且有效,以上所介绍的FFT算法,不管是在易于实现还是运算量上,都是一个很好的选择。

[1]韩德民.人工耳蜗[M].北京:人民卫生出版社,2003.

HANDemin.CochlearImplant[M].Beijing:People′sMe-dicalPublishingHouse,2003.

[2]

王直中,曹克利主译.人工耳蜗植入原理与实践[M].北京:人民卫生出版社,2003.

WANGZhizhong,CAOKeli.CochlearImplantPrinciples&Practices[M].Beijing:People′sMedicalPublishingHouse,2003.

[3]

聂开宝,蓝宁,高上凯,等.人工电子耳蜗语音信号处理方法的研究进展[J].北京生物医学工程学杂志,1999,3(16).NIEKaibao,LANNing,GAOShangkai,etal.Advancesofresearchonspeechsignalprocessingstrategyincoch-learimplant[J].Beijingbiologymedicinemagazine.1999.3(16).

[4]

DonaldK.Eddington,WilliamM.Rabinowitz,LorraineA,DellzomeDelhorne.Soundprocessingforcochlearimpl-ants[J].Acoustics,SpeechandSignalProcessing,2001,6:3449-3452.

[5]

胡航.语音信号处理[M].哈尔滨:哈尔滨工业大学出版社.2000.HUHan.SpeechSignalProcessing[M].Harbin:HarbinIn-stituteofTechnologyPress.2000.

[6]JaouharMOUM,AhmedBENHAMIDA,ZiedCHTOUROU,MOUM,AhmedBENHAMIDA,ZiedCHTOUROU.Noure-ddineLAKHOUAandMounirSAMET.ImplementationofanFFTbasedstimulationalgorithmonafullyprogrammablecochlearprosthesis[J].IEEE.EMBMag.,1998,762-765.[7]AhmedBENHAMIDA,IEEEmember&MedGHORBEL.DigitalapproachforCochlea′sStimulation:AProgrammableMicroStimulatorDrivenbyaFlexibleSpeechProcessing[J].IEEE.EMBMag.,2001,3235-3238.

采用方法基于FFT基于滤波器组

表2

两种方法运算量的比较

Table2Compareoftwodifferentmethods

得到每通道刺激脉冲的幅度所需周期数(cycles)

19774270904

446

语音信号处理与及其MATLAB实现分析

目录 摘要 (2) 第一章绪论 (3) 1.1 语音课设的意义 (3) 1.2 语音课设的目的与要求 (3) 1.3 语音课设的基本步骤 (3) 第二章设计方案论证 (5) 2.1 设计理论依据 (5) 2.1.1 采样定理 (5) 2.1.2 采样频率 (5) 2.1.3 采样位数与采样频率 (5) 2.2 语音信号的分析及处理方法 (6) 2.2.1 语音的录入与打开 (6) 2.2.2 时域信号的FFT分析 (6) 2.2.3 数字滤波器设计原理 (7) 2.2.4 数字滤波器的设计步骤 (7) 2.2.5 IIR滤波器与FIR滤波器的性能比较 (7) 第三章图形用户界面设计 (8) 3.1 图形用户界面概念 (8) 3.2 图形用户界面设计 (8) 3.3 图形用户界面模块调试 (9) 3.3.1 语音信号的读入与打开 (9) 3.3.2 语音信号的定点分析 (9) 3.3.3 N阶高通滤波器 (11) 3.3.4 N阶低通滤波器 (12) 3.3.5 2N阶带通滤波器 (13) 3.3.6 2N阶带阻滤波器 (14) 3.4 图形用户界面制作 (15) 第四章总结 (18) 附录 (19) 参考文献 (24)

摘要 数字信号处理是将信号以数字方式表示并处理的理论和技术。数字信号处理与模拟信号处理是信号处理的子集。 数字信号处理的目的是对真实世界的连续模拟信号进行测量或滤波。因此在进行数字信号处理之前需要将信号从模拟域转换到数字域,这通常通过模数转换器实现。而数字信号处理的输出经常也要变换到模拟域,这是通过数模转换器实现的。 数字信号处理的算法需要利用计算机或专用处理设备如数字信号处理器(DSP)和专用集成电路(ASIC)等。数字信号处理技术及设备具有灵活、精确、抗干扰强、设备尺寸小、造价低、速度快等突出优点,这些都是模拟信号处理技术与设备所无法比拟的。 数字信号处理的核心算法是离散傅立叶变换(DFT),是DFT使信号在数字域和频域都实现了离散化,从而可以用通用计算机处理离散信号。而使数字信号处理从理论走向实用的是快速傅立叶变换(FFT),FFT的出现大大减少了DFT的运算量,使实时的数字信号处理成为可能、极大促进了该学科的发展。 MATLAB是矩阵实验室(Matrix Laboratory)的简称,和Mathematica、Maple 并称为三大数学软件。它在数学类科技应用软件中在数值计算方面首屈一指。MATLAB可以进行矩阵运算、绘制函数和数据、实现算法、创建用户界面、连接其他编程语言的程序等,主要应用于工程计算、控制设计、信号处理与通讯、图像处理、信号检测、金融建模设计与分析等领域。 MATLAB的基本数据单位是矩阵,它的指令表达式与数学、工程中常用的形式十分相似,故用MATLAB来解算问题要比用C,FORTRAN等语言完相同的事情简捷得多,并且mathwork也吸收了像Maple等软件的优点,使MATLAB成为一个强大的数学软件。在新的版本中也加入了对C,FORTRAN,C++ ,JAVA的支持。可以直接调用,用户也可以将自己编写的实用程序导入到MATLAB函数库中方便自己以后调用,此外许多的MATLAB爱好者都编写了一些经典的程序,用户可以直接进行下载就可以用。

语音信号处理实验指导书

语音信号处理实验指导书 实验一 语音信号采集与简单处理 一、 实验目的、要求 (1)掌握语音信号采集的方法 (2)掌握一种语音信号基音周期提取方法 (3)掌握短时过零率计算方法 (4)了解Matlab 的编程方法 二、 实验原理 基本概念: (a )短时过零率: 短时内,信号跨越横轴的情况,对于连续信号,观察语音时域波形通过横轴的情况;对于离散信号,相邻的采样值具有不同的代数符号,也就是样点改变符号的次数。 对于语音信号,是宽带非平稳信号,应考察其短时平均过零率。 其中sgn[.]为符号函数 ?? ?? ?<=>=0 x(n)-1sgn(x(n))0 x(n)1sgn(x(n)) 短时平均过零的作用 1.区分清/浊音: 浊音平均过零率低,集中在低频端; 清音平均过零率高,集中在高频端。 2.从背景噪声中找出是否有语音,以及语音的起点。 (b )基音周期 基音是发浊音时声带震动所引起的周期性,而基音周期是指声带震动频率的倒数。基音周期是语音信号的重要的参数之一,它描述语音激励源的一个重要特征,基音周期信息在多个领域有着广泛的应用,如语音识别、说话人识别、语音分析与综合以及低码率语音编码,发音系统疾病诊断、听觉残障者的语音指导等。因为汉语是一种有调语言,基音的变化模式称为声调,它携带着非常重要的具有辨意作用的信息,有区别意义的功能,所以,基音的提取和估计对汉语更是一个十分重要的问题。 ∑--= -=1 )]1(sgn[)](sgn[21N m n n n m x m x Z

由于人的声道的易变性及其声道持征的因人而异,而基音周期的范围又很宽,而同—个人在不同情态下发音的基音周期也不同,加之基音周期还受到单词发音音调的影响,因而基音周期的精确检测实际上是一件比较困难的事情。基音提取的主要困难反映在:①声门激励信号并不是一个完全周期的序列,在语音的头、尾部并不具有声带振动那样的周期性,有些清音和浊音的过渡帧是很难准确地判断是周期性还是非周期性的。②声道共振峰有时会严重影响激励信号的谐波结构,所以,从语音信号中直接取出仅和声带振动有关的激励信号的信息并不容 易。③语音信号本身是准周期性的(即音调是有变化的),而且其波形的峰值点或过零点受共振峰的结构、噪声等的影响。④基音周期变化范围大,从老年男性的50Hz 到儿童和女性的450Hz ,接近三个倍频程,给基音检测带来了一定的困难。由于这些困难,所以迄今为止尚未找到一个完善的方法可以对于各类人群(包括男、女、儿童及不向语种)、各类应用领域和各种环境条件情况下都能获得满意的检测结果。 尽管基音检测有许多困难,但因为它的重要性,基音的检测提取一直是一个研究的课题,为此提出了各种各样的基音检测算法,如自相关函数(ACF)法、峰值提取算法(PPA)、平均幅度差函数(AMDF)法、并行处理技术、倒谱法、SIFT 、谱图法、小波法等等。 三、使用仪器、材料 微机(带声卡)、耳机,话筒。 四、 实验步骤 (1)语音信号的采集 利用Windows 语音采集工具采集语音信号,将数据保存wav 格式。 采集一组浊音信号和一组清音信号,信号的长度大于3s 。 (2)采用短时相关函数计算语音信号浊音基音周期,考虑窗长度对基音周期计算的影响。采用倒谱法求语音信号基音周期。 (3)计算短时过零率,清音和浊音的短时过零率有何区别。 五、实验过程原始记录(数据,图表,计算) 短时过零率 短时相关函数 P j j n s n s j R N j n n n n ,,1) ()()(1 =-=∑-= ∑--=-=10 )]1(sgn[)](sgn[21N m n n n m x m x Z

基于Matlab的语音信号处理与分析

系(院)物理与电子工程学院专业电子信息工程题目语音信号的处理与分析 学生姓名 指导教师 班级 学号 完成日期:2013 年5 月 目录 1 绪论.............................................................................................................. 错误!未定义书签。 1.1课题背景及意义................................................................................. 错误!未定义书签。 1.2国内外研究现状................................................................................. 错误!未定义书签。 1.3本课题的研究内容和方法................................................................. 错误!未定义书签。 1.3.1 研究内容................................................................................ 错误!未定义书签。 1.3.2 开发环境................................................................................ 错误!未定义书签。 2 语音信号处理的总体方案............................................................................ 错误!未定义书签。 2.1 系统基本概述.................................................................................... 错误!未定义书签。 2.2 系统基本要求与目的........................................................................ 错误!未定义书签。 2.3 系统框架及实现................................................................................ 错误!未定义书签。 2.3.1 语音信号的采样.................................................................... 错误!未定义书签。 2.3.2 语音信号的频谱分析............................................................ 错误!未定义书签。 2.3.3 音乐信号的抽取.................................................................... 错误!未定义书签。 2.3.4 音乐信号的AM调制.............................................................. 错误!未定义书签。 2.3.5 AM调制音乐信号的同步解调............................................... 错误!未定义书签。 2.4系统设计流程图................................................................................. 错误!未定义书签。 3 语音信号处理基本知识................................................................................ 错误!未定义书签。 3.1语音的录入与打开............................................................................. 错误!未定义书签。 3.2采样位数和采样频率......................................................................... 错误!未定义书签。 3.3时域信号的FFT分析......................................................................... 错误!未定义书签。 3.4切比雪夫滤波器................................................................................. 错误!未定义书签。 3.5数字滤波器设计原理......................................................................... 错误!未定义书签。 4 语音信号实例处理设计................................................................................ 错误!未定义书签。 4.1语音信号的采集................................................................................. 错误!未定义书签。

语音信号处理实验报告

语音信号处理实验 班级: 学号: 姓名: 实验一基于MATLAB的语音信号时域特征分析(2学时)

1)短时能量 (1)加矩形窗 a=wavread('mike.wav'); a=a(:,1); subplot(6,1,1),plot(a); N=32; for i=2:6 h=linspace(1,1,2.^(i-2)*N);%形成一个矩形窗,长度为2.^(i-2)*N En=conv(h,a.*a);% 求短时能量函数En subplot(6,1,i),plot(En); if(i==2) ,legend('N=32'); elseif(i==3), legend('N=64'); elseif(i==4) ,legend('N=128'); elseif(i==5) ,legend('N=256'); elseif(i==6) ,legend('N=512'); end end

00.51 1.52 2.5 3 x 10 4 -1 1 x 10 4 024 x 10 4 05 x 10 4 0510 x 10 4 01020 x 10 4 02040 (2)加汉明窗 a=wavread('mike.wav'); a=a(:,1); subplot(6,1,1),plot(a); N=32; for i=2:6 h=hanning(2.^(i-2)*N);%形成一个汉明窗,长度为2.^(i-2)*N En=conv(h,a.*a);% 求短时能量函数En subplot(6,1,i),plot(En); if(i==2), legend('N=32'); elseif(i==3), legend('N=64'); elseif(i==4) ,legend('N=128');

数字信号处理课程设计任务书doc

齐鲁工业大学 课程设计任务书 学院电子信息与控制工程学院专业通信工程 姓名班级学号 题目树形结构滤波器组设计 主要内容、基本要求、主要参考资料等: 主要内容: 滤波器组在语音、图像的子带编码和压缩中都有着广泛的应用,非均匀滤波器组还构成了Mallat多分辨分析的算法基础,在小波变换中占有重要的地位。本设计主要内容是研究树形滤波器组的原理,并设计一个树形滤波器组,实现语音信号的分解与重构。基本要求: (1)滤波器组的基本原理;(2)树形结构滤波器组的原理及设计方法;(3)设计一个8通道的树形结构滤波器组:均匀滤波器组和非均匀滤波器组;给出设计思路及结果;(4)用设计的滤波器组对某信号进行多通道分解,验证滤波器组的性能,对结果进行分析;(5)提交课程设计报告。 主要参考资料: 1. 胡广书. 现代信号处理教程,数字信号处理. 清华大学出版社. 2005.06 2. 高西全. 数字信号处理. 西安电子科技大学出版社. 2009.01 3. matlab信号处理相关书籍,多采样率信号处理的书籍、资料。 4. 相关网络资源 完成期限:自 2013 年 6 月 18 日至 2013 年 7 月 5 日

指导教师:张凯丽教研室主任: 齐鲁工业大学 课程设计任务书 学院电子信息与控制工程学院专业通信工程 姓名班级学号 题目平行结构滤波器组设计 主要内容、基本要求、主要参考资料等: 主要内容: 滤波器组在语音、图像的子带编码和压缩中都有着广泛的应用,非均匀滤波器组还构成了Mallat多分辨分析的算法基础,在小波变换中占有重要的地位。本设计主要内容是研究平行滤波器组的原理,并设计一个平行滤波器组。 基本要求: (1)滤波器组的基本原理;(2)平行结构滤波器组的原理及设计方法;(3)设计一个8通道的平行结构滤波器组:均匀滤波器组和非均匀滤波器组;给出设计思路及结果;(4)用设计的滤波器组对某信号进行多通道分解,验证滤波器组的性能,对结果进行分析;(5)提交课程设计报告。 主要参考资料: 1. 胡广书. 现代信号处理教程,数字信号处理. 清华大学出版社. 2005.06 2. 高西全. 数字信号处理. 西安电子科技大学出版社. 2009.01 3. matlab信号处理相关书籍,多采样率信号处理的书籍、资料。 4. 相关网络资源

DSP语音信号处理课程设计(精)

DSP语音信号处理课程设计报告书 语音信号处理GUI工具箱设计 指导老师:专业:电子信息工程 班级: 姓名:学号: 设计时间: 2011年10月12日至 地点: 摘要 语音信号处理是研究数字信号处理技术和语音信号进行处理的一门学科,是一门新型的学科,是在多门学科基础上发展起来的综合性技术,它涉及到数字信号处理、模式识别、语言学。语音信号处理是研究用数字信号处理技术对语音信号处理的一门学科。处理的目的是要得到一些语音参数以便高效的传输或存储;或者是通过处理的某种运算以达到某种用途的要求。语音信号处理又是一门边缘学科。如上所诉,它是“语言语音学”与“数字信号处理”两个学科相结合的产物。 语音信号处理属于信息科学的一个重要分支,大规模集成技术的高度发展和计算机技术的飞速前进,推动了这一技术的发展。在数字音频技术和多媒体技术迅速发展的今天,传统的磁带语音录放系统因体积大、使用不便、放音不清晰而受到了巨大挑战。本次课程设计提出的体积小巧,功耗低的数字化语音存储与回放系统,可以有效的解决传统的语音录放系统在电子与信息处理的使用中受到的限制。 本文提出了语音信号处理课程建设的实验环节中的一些考虑,作为专业课程的学习,实验内容不能仅仅停留在验证性实验上,还应增加实验延伸的设计要求,是学生加深对理论分析认识的同时,强调培养学生的实际动手能力和知识综合运用能力。从而提高语音信号的教学和实验的质量。实验内容采用MATLAB编程实现,不仅易于语音信号处理的实现,更易引导学生完成实验延伸的设计。 目录 第一章绪论 (1) 1.1课程设计的目的及意义 (1) 1.2设计要求 (1) 1.3 研究内容 (1) 第二章语音信号处理理论基础 (3) 第三章系统方案论证 (4) 2.1 设计方案 (4) 2.2 GUI界面功能介绍 (4) 2.3 GUI界面的具体操作 (5)

语音信号处理实验报告

通信与信息工程学院 信息处理综合实验报告 班级:电子信息工程1502班 指导教师: 设计时间:2018/10/22-2018/11/23 评语: 通信与信息工程学院 二〇一八年 实验题目:语音信号分析与处理 一、实验内容 1. 设计内容 利用MATLAB对采集的原始语音信号及加入人为干扰后的信号进行频谱分析,使用窗函数法设计滤波器滤除噪声、并恢复信号。 2.设计任务与要求 1. 基本部分

(1)录制语音信号并对其进行采样;画出采样后语音信号的时域波形和频谱图。 (2)对所录制的语音信号加入干扰噪声,并对加入噪声的信号进行频谱分析;画出加噪后信号的时域波形和频谱图。 (3)分别利用矩形窗、三角形窗、Hanning窗、Hamming窗及Blackman 窗几种函数设计数字滤波器滤除噪声,并画出各种函数所设计的滤波器的频率响应。 (4)画出使用几种滤波器滤波后信号时域波形和频谱,对滤波前后的信号、几种滤波器滤波后的信号进行对比,分析信号处理前后及使用不同滤波器的变化;回放语音信号。 2. 提高部分 (5)录制一段音乐信号并对其进行采样;画出采样后语音信号的时域波形和频谱图。 (6)利用MATLAB产生一个不同于以上频段的信号;画出信号频谱图。 (7)将上述两段信号叠加,并加入干扰噪声,尝试多次逐渐加大噪声功率,对加入噪声的信号进行频谱分析;画出加噪后信号的时域波形和频谱图。 (8)选用一种合适的窗函数设计数字滤波器,画出滤波后音乐信号时域波形和频谱,对滤波前后的信号进行对比,回放音乐信号。 二、实验原理 1.设计原理分析 本设计主要是对语音信号的时频进行分析,并对语音信号加噪后设计滤波器对其进行滤波处理,对语音信号加噪声前后的频谱进行比较分析,对合成语音信号滤波前后进行频谱的分析比较。 首先用PC机WINDOWS下的录音机录制一段语音信号,并保存入MATLAB软件的根目录下,再运行MATLAB仿真软件把录制好的语音信号用audioread函数加载入MATLAB仿真软件的工作环境中,输入命令对语音信号进行时域,频谱变换。 对该段合成的语音信号,分别用矩形窗、三角形窗、Hanning窗、Hamming窗及Blackman窗几种函数在MATLAB中设计滤波器对其进行滤波处理,滤波后用命令可以绘制出其频谱图,回放语音信号。对原始语音信号、合成的语音信号和经过滤波器处理的语音信号进行频谱的比较分析。 2.语音信号的时域频域分析 在Matlab软件平台下可以利用函数audioread对语音信号进行采样,得到了声音数据变量y,同时把y的采样频率Fs=44100Hz放进了MATALB的工作空间。

微电子技术在医学中的应用

微电子技术在医学中的应用 随着科技的迅速发展,和医疗水平息息相关的电子技术应用也越来越广泛。微电子技术的发展大大方便了人们的生活,随着微电子技术的发展,生物医学也在快速的发展,微电子技术过去在医学中的主要是应用于各类医疗器械的集成电路,在未来主要是生物芯片。生物芯片技术在医学、生命科学、药业、农业、环境科学等凡与生命活动有关的领域中均具有重大的应用前景。微电子技术与生物医学之间有着非常紧密的联系。 生物医学电子学是由微电子学、生物和医学等多学科交叉的边缘科学,为使得生物医学领域的研究方式更加精确和科学,所以将电子学用于生物医学领域。在生物医学与电子学交叉作用部分中最活跃、最前沿、作用力最大的一项关键技术就是微电子技术。特别是随着集成电路集成度的提高和超大规模集成电路的发展,元件尺寸达到分子级,进入了分子电子学时代,用有机化合物低分子、高分子和生物分子作芯片,它们具有识别、采集、记忆、放大、开关、传导等功能,更大大促进了医学电子学的发展。 以下将主要从生物医学传感器、植入式电子系统、生物芯片这三个方面结合当前国际上最新进展来介绍两者之间的关系与发展。 一、生物医学传感器 生物医学传感器是连接生物医学和电子学的桥梁。它的作用是把人体中和生物体包含的生命现象、性质、状态、成分和变量等生理信息转化为与之有确定函数关系的电子信息。生物医学传感器技术是生物医学电子学中一项关键的技术,是发展生物技术必不可少的一种先进的检测方法与监控方法,也是物质分子水平的快速、微量分析方法。因为生物传感器专一、灵敏、响应快等特点,为基础医学研究及临床诊断提供了一种快速简便的新型方法,在临床医学中发挥着越来越大的作用,意义极为重大。 常见的生物医学传感器主要可分为以下几种:电阻式传感器,电感式传感器,电容式传感器,压电式传感器,热电式传感器,光电传感器以及生物传感器等。 医学领域的生物传感器发挥着越来越大的作用。在临床医学中,酶电极是最早研制且应用最多的一种传感器。利用具有不同生物特性的微生物代替酶,可制成微生物传感器,广泛应用于:药物分析、肿瘤监测、血糖分析等。 生物医学传感器相较于传统医疗方式具有以下特点: 1、生物传感器采用固定化生物活性物质作催化剂,价值昂贵的试剂可以重复多次使用,克服了过去酶法分析试剂费用高和化学分析繁琐复杂的缺点。因此,这一技成本低,在连续使用时,每例测定仅需要几分钱人民币,术在很大程度上减轻病患医疗费用上的负担。

语音信号处理试验教程

语音信号处理试验 实验一:语音信号时域分析 实验目的: (1)录制两段语音信号,内容是“语音信号处理”,分男女声。 (2)对语音信号进行采样,观察采样后语音信号的时域波形。 实验步骤: 1、使用window自带录音工具录制声音片段 使用windows自带录音机录制语音文件,进行数字信号的采集。启动录音机。录制一段录音,录音停止后,文件存储器的后缀默认为.Wav。将录制好文件保存,记录保存路径。男生女生各录一段保存为test1.wav和test2.wav。 图1基于PC机语音信号采集过程。 2、读取语音信号 在MATLAB软件平台下,利用wavread函数对语音信号进行采样,记住采样频率和采样点数。通过使用wavread函数,理解采样、采样频率、采样位数等概念! Wavread函数调用格式: y=wavread(file),读取file所规定的wav文件,返回采样值放在向量y中。

[y,fs,nbits]=wavread(file),采样值放在向量y中,fs表示采样频率(hz),nbits表示采样位数。 y=wavread(file,N),读取前N点的采样值放在向量y中。 y=wavread(file,[N1,N2]),读取从N1到N2点的采样值放在向量y中。 3、编程获取语音信号的抽样频率和采样位数。 语音信号为test1.wav和test2.wav,内容为“语音信号处理”,两端语音保存到工作空间work文件夹下。在M文件中分别输入以下程序,可以分两次输入便于观察。 [y1,fs1,nbits1]=wavread('test1.wav') [y2,fs2,nbits2]=wavread('test2.wav') 结果如下图所示 根据结果可知:两端语音信号的采样频率为44100HZ,采样位数为16。 4、语音信号的时域分析 语音信号的时域分析就是分析和提取语音信号的时域参数。进行语音分析时,最先接触到并且夜市最直观的是它的时域波形。语音信

语音信号处理实验报告实验二

通信工程学院12级1班 罗恒 2012101032 实验二 基于MATLAB 的语音信号频域特征分析 一、 实验要求 要求根据已有语音信号,自己设计程序,给出其倒谱、语谱图的分析结果,并根据频域分析方法检测所分析语音信号的基音周期或共振峰。 二、 实验目的 信号的傅立叶表示在信号的分析与处理中起着重要的作用。因为对于线性系统来说,可以很方便地确定其对正弦或复指数和的响应,所以傅立叶分析方法能完善地解决许多信号分析和处理问题。另外,傅立叶表示使信号的某些特性变得更明显,因此,它能更深入地说明信号的各项红物理现象。 由于语音信号是随着时间变化的,通常认为,语音是一个受准周期脉冲或随机噪声源激励的线性系统的输出。输出频谱是声道系统频率响应与激励源频谱的乘积。声道系统的频率响应及激励源都是随时间变化的,因此一般标准的傅立叶表示虽然适用于周期及平稳随机信号的表示,但不能直接用于语音信号。由于语音信号可以认为在短时间内,近似不变,因而可以采用短时分析法。 三、 实验设备 1.PC 机; 2.MATLAB 软件环境; 四、 实验内容 1.上机前用Matlab 语言完成程序编写工作。 2.程序应具有加窗(分帧)、绘制曲线等功能。 3.上机实验时先调试程序,通过后进行信号处理。 4.对录入的语音数据进行处理,并显示运行结果。 5.依次给出其倒谱、语谱图的分析结果。 6. 根据频域分析方法检测所分析语音信号的基音周期或共振峰。 五、 实验原理及方法 1、短时傅立叶变换 由于语音信号是短时平稳的随机信号,某一语音信号帧的短时傅立叶变换的定义为: 其中w(n -m)是实窗口函数序列,n 表示某一语音信号帧。令n -m=k',则得到 ()()()jw jwm n m X e x m w n m e ∞-=-∞= -∑

人工耳蜗的发展趋势

Trends in Cochlear Implant(CN) 人工耳蜗的发展趋势 Fan-Gang Zeng, John-Yuhan Bai Hearing and Speech Research Lab Department of Otolaryngology, Department of Biomedical Engineering University of California, Irvine 摘要 当今世界上有超过6万人在使用人工耳蜗来恢复功能性听力。虽然它们在不同个体上的性能差异依然很大,但平均来说,大部分使用者都可以通过人工耳蜗在安静环境下进行顺畅的电话交谈。使用人数和科技文献的数量的指数性增长,证实了人工耳蜗已经发展成为一个成熟的领域。本文着重从心理物理学,语音,音乐和认知表达这几个角度,来阐述现今与人工耳蜗相关的声学、临床医学、工程学、解剖学和生理学方面的发展概况。本文也报告了一些在人工耳蜗的术前评估、调试协议、信号处理和术后康复方面的临床和实验发展趋势。最后向读者描绘了一幅人工耳蜗未来不断扩大的发展蓝图,它将综合助听器,中耳装置和人工耳蜗这三个独立而又相互补充的部分来实现一个完整的听力损失解决方案。 关键词:人工耳蜗,信号处理

目录 人工耳蜗信号处理方法的研究 (1) 1 简介: (3) 1.1人工耳蜗的历史 (3) 1.2现状 (4) 2 工程问题 (6) 2.1系统设计 (6) 2.2语音信号处理器 (7) 2.3电极 (10) 2.4遥测采集技术 (11) 2.5调试系统 (12) 3 解剖学和生理学问题 (12) 3.1耳蜗和听觉神经 (13) 3.2声学刺激和电刺激的不同 (13) 3.3电刺激的中枢神经响应 (13) 4 心理物理学性能 (13) 4.1强度、响度和动态范围 (14) 4.2频率,音调和音调构成 (14) 4.3时域处理 (14) 5 语音处理的性能 (15) 5.1希尔波特包络和微细结构 (15) 5.2时域和频域处理 (16) 5.3语音识别 (19) 5.4双边人工耳蜗及联合声电刺激 (20) 5.5说话人和音色的识别 (22) 6 音乐欣赏性能 (22) 6.1节拍和节奏 (23) 6.2音调、间隔和旋律 (23) 6.3音品和乐器 (24) 7 感知性能 (25) 8 发展趋势 (25) 8.1临床问题 (25) 8.2下一代人工耳蜗 (26) 8.3前景 (26)

数字语音信号处理实验报告

语音信号处理实验报告 专业班级电子信息1203 学生姓名钟英爽 指导教师覃爱娜 完成日期2015年4月28日 电子信息工程系 信息科学与工程学院

实验一语音波形文件的分析和读取 一、实验学时:2 学时 二、实验的任务、性质与目的: 本实验是选修《语音信号处理》课的电子信息类专业学生的基础实验。通过实验 (1)掌握语音信号的基本特性理论:随机性,时变特性,短时平稳性,相关性等; (2)掌握语音信号的录入方式和*.WAV音波文件的存储结构; (3)使学生初步掌握语音信号处理的一般实验方法。 三、实验原理和步骤: WAV 文件格式简介 WAV 文件是多媒体中使用了声波文件的格式之一,它是以RIFF格式为标准。每个WAV 文件的头四个字节就是“RIFF”。WAV 文件由文件头和数据体两大部分组成,其中文件头又分为RIFF/WAV 文件标识段和声音数据格式说明段两部分。常见的WAV 声音文件有两种,分别对应于单声道(11.025KHz 采样率、8Bit 的采样值)和双声道(44.1KHz 采样率、16Bit 的采样值)。采样率是指声音信号在“模拟→数字”转换过程中,单位时间内采样的次数;采样值是指每一次采样周期内声音模拟信号的积分值。对于单声道声音文件,采样数据为8 位的短整数(short int 00H-FFH);而对于双声道立体声声音文件,每次采样数据为一个16 位的整数(int),高八位和低八位分别代表左右两个声道。WAV 文件数据块包含以脉冲编码调制(PCM)格式表示的样本。在单声道WAV 文件中,道0 代表左声道,声道1 代表右声道;在多声道WAV 文件中,样本是交替出现的。WAV 文件的格式 表1 wav文件格式说明表

语音信号处理答案

二、问答题(每题分,共分) 、语音信号处理主要研究哪几方面的内容? 语音信号处理是研究用数字信号处理技术对语言信号进行处理的一门学科,语音信号处理的理论和研究包括紧密结合的两个方面:一方面,从语言的产生和感知来对其进行研究,这一研究与语言、语言学、认知科学、心理、生理等学科密不可分;另一方面,是将语音作为一 种信号来进行处理,包括传统的数字信号处理技术以及一些新的应用于语音信号的处理方法 和技术。 、语音识别的研究目标和计算机自动语音识别的任务是什么? 语音识别技术,也被称为自动语音识别,(),其目标是将人类的语音中的词汇内容转换为 计算机可读的输入,例如按键、二进制编码或者字符序列。 计算机自动语音识别的任务就是让机器通过识别和理解过程把语音信号转变为相应的文本 或命令的高技术。 、语音合成模型关键技术有哪些? 语音合成是实现人机语音通信,建立一个有听和讲能力的口语系统所需的两项关键技术,该系统主要由三部分组成:文本分析模块、韵律生成模块和声学模块。.如何取样以精确地抽取人类发信的主要特征,.寻求什么样的网络特征以综合声道的频率响应,.输出合成声音的质量如何保证。 、语音压缩技术有哪些国际标准? 二、名词解释(每题分,共分) 端点检测:就从包含语音的一段信号中,准确的确定语音的起始点和终止点,区分语音信号和非语音信号。 共振峰:当准周期脉冲激励进入声道时会引起共振特性,产生一组共振频率,称为共振峰频率或简称共振峰。 语谱图:是一种三维频谱,它是表示语音频谱随时间变化的图形,其纵轴为频率,横轴为时间,任一给定的频率成分在给定时刻的强弱用相应点的灰度或色调的浓淡来表示。 码本设计:就是从大量信号样本中训练出好的码本,从实际效果出发寻找好的失真测度定义 公示,用最少的搜素和计算失真的运算量。 语音增强:语音质量的改善和提高,目的去掉语音信号中的噪声和干扰,改善它的质量 三、简答题(每题分,共分) 、简述如何利用听觉掩蔽效应。 一个较弱的声音(被掩蔽音)的听觉感受被另一个较强的声音(掩蔽音)影响的现象称为人耳的“掩蔽效应”。人耳的掩蔽效应一个较弱的声音(被掩蔽音)的听觉感受被另一个较强的声 音(掩蔽音)影响的现象称为人耳的“掩蔽效应”。被掩蔽音单独存在时的听阈分贝值,或者 说在安静环境中能被人耳听到的纯音的最小值称为绝对闻阈。实验表明,—绝对闻阈值最小,即人耳对它的微弱声音最敏感;而在低频和高频区绝对闻阈值要大得多。在范围内闻阈随频率变化最不显著,即在这个范围内语言可储度最高。在掩蔽情况下,提高被掩蔽弱音的强度, 使人耳能够听见时的闻阈称为掩蔽闻阈(或称掩蔽门限),被掩蔽弱音必须提高的分贝值称为 掩蔽量(或称阈移)。 、简述时间窗长与频率分辨率的关系。 采样周期、窗口长度和频率分辨率△之间存在下列关系:△(*) 可见,采样周期一定时,△随窗口宽度的增加而减少,即频率分辨率相应得到提高,但同时时间分辨率降低;如果窗口取短,频率分辨率下降,而时间分辨率提高,因而二者是矛盾的。 、简述时域分析的技术(最少三项)及其在基因检测中的应用。()

第一章 思考题

第一章思考题 1、语音信号处理是如何定义的?主要解决什么问题?有哪些应用? 2、语音信号处理主要从哪几方面开展研究? 3、数字语音编码的目的是什么?请列举一些主要应用。 4、语音编码有哪几个属性? 5、语音编码分为几类? 6、波形编码、参数编码和混合编码后的语音波形形状是否和原始语音波形类似?那种方法质量最高?那种方法的压缩比最高?混合编码方法有何特点? 7、目前4kb/s以下的窄带语音编码方法有哪些?带宽是多少?采样率是多少? 8、8~64kb/s的宽带语音编码主要采用何种方法?带宽是多少?采样率是多少? 9、制定语音编码的国际组织有哪些? 10、IUT-T窄带语音编码标准有哪些?各自的编码速率是多少?A/u律PCM编码的速率是如何计算的? 11、用于GSM移动通信的ETSI窄带语音编码标准有哪些?各自的编码速率是多少?采用自适应多速率编码有何好处? 12、用于北美CDMA/TDMA移动通信的TIA/EIA语音编码标准有哪些?各自的编码速率是多少? 13、日本数字蜂窝(JDC-Japanese Digital Cellular )语音编码标准有哪些?各自的编码速率是多少? 14、保密电话的语音编码标准有哪些?主要速率有几种? 15、目前的卫星电话语音编码算法有几种?编码速率各是多少? 16、ITU-T宽带语音编码标准G.7xx有哪些?各自的算法、速率、延时和复杂度如何? 17、语音识别的目的是什么?目前的研究重点是什么?有哪些主要应用? 18、说话人识别和语音识别有何区别? 19、说话人识别有几类?各自解决什么问题? 20、语音合成(TTS)的目的是什么?TTS的核心模块是哪几个?各模块的功能是什么?韵律控制需要哪几个参数? 21、语音的合成方法有几种?各自的合成机理是什么? 22、请列举目前语音合成研究的热点课题。

语音信号处理 (第2版)赵力 编著 语音信号处理勾画要点

语音信号处理(第2版)赵力编著 重点考点 第2章语音信号处理的基础知识 1.语音(Speech)是声音(Acoustic)和语言(Language)的组合体。可以这样定义语音:语音是由一连串的音组成语言的声音。 2.人的说话过程可以分为五个阶段:(1)想说阶段(2)说出阶段(3)传送阶段(4)理解阶段(5)接收阶段。 3.语音是人的发声器官发出的一种声波,它具有一定的音色,音调,音强和音长。其中,音色也叫音质,是一种声音区别于另一种声音的基本特征。音调是指声音的高低,它取决于声波的频率。声音的强弱叫音强,它由声波的振动幅度决定。声音的长短叫音长,它取决于发音时间的长短。 4.说话时一次发出的,具有一个响亮的中心,并被明显感觉到的语音片段叫音节(Syllable)。一个音节可以由一个音素(Phoneme)构成,也可以由几个音素构成。音素是语音发音的最小单位。任何语言都有语音的元音(Vowel)和辅音(Consonant)两种音素。 5.元音的另一个重要声学特性是共振峰(Formant)。共振峰参数是区别不同元音的重要参数,它一般包括共振峰频率(Formant Frequency)的位置和频带宽度(Formant Bandwidth)。 6.区分语音是男声还是女声、是成人声音还是儿童声音,更重要的因素是共振峰频率的高低。 7.浊音的声带振动基本频率称基音周期(或基音频率),F0表示。 8.人的听觉系统有两个重要特性,一个是耳蜗对于声信号的时频分析特性;另一个是人耳听觉掩蔽效应。 9.掩蔽效应分为同时掩蔽和短时掩蔽。 10.激励模型:一般分成浊音激励和清音激励。浊音激励波是一个以基音周期为周期的斜三角脉冲串。 11.声道模型:一是把声道视为由多个等长的不同截面积的管子串联而成的系统。按此观点推导出的叫“声管模型”。另一个是把声道视为一个谐振腔,按此推导出的叫“共振峰模型”。 12.完整的语音信号的数字模型可以用三个子模型:激励模型、声道模型和辐射模型的串联来表示。 13.语谱图:人们致力于研究语音的时频分析特性,把和时序相关的傅立叶分析的显示图形。 第三章语音信号分析 1.贯穿于语音分析全过程的是“短时分析技术”。 2.语音信号的数字化一般包括放大及增益控制、反混叠滤波、采样、A/D变换及编码(一般就是PCM码);预处理一般包括预加重、加窗和分帧等。 3.预滤波的目的有两个:

信号系统与语音信号处理实验平台 RZ8664型

产品详细技术方案 信号系统与语音信号处理实验平台 RZ8664 型 简述:RZ8664根据《信号与系统》和《数字信号处理》两门课相互关联的特点,在总结信号与系统实验教学经验,并结合数字信号处理技术、DDS技术、虚拟仪器技术、语音处理技术,开发出的新型“信号与系统”实验箱。它既可完成传统实验箱的实验内容,又能完成原有实验箱难以完成或结果不理想的任意信号分解、信号与系统卷积、数字滤波器、任意信号时域频域分析、语音信号分析等实验;同时也能做“数字信号处理”、“DSP应用”、“虚拟仪器技术”、“语音处理”实验;实验箱采用了正面贴膜工艺,增加了USB通信接口和语音接口。系统既美观又稳定可靠,方便管理。适合专科、本科、研究生和研发人员使用。 一、产品图片 注:产品以实物为准!

RZ-VSlab虚拟实体仿真软件 二、技术指标 1.基于STM32的DDS信号源,可产生:正弦波、三角波、占空比可变的脉冲信号、扫频信号、半波、全波、AM、DSB、SSB、FM等信号,便于学生对不同信号进行时域频域分析; 2.内置数字频率计:0HZ~250KHZ;数字豪伏表:0V~10V; 3.能完成各种卷积实验,输入信号和系统函数可由PC机设定; 4.各种无源、有源模拟滤波器设计、仿真、验证;复杂信号的抽样与恢复,恢复滤波器可开发; 5.能完成数字滤波器的在线设计、冲激与频响仿真、实现(提供整套在线设计、下载软件),学生可基于该功能研究复杂信号中谐波分量的位置与大小; 6.基于数字信号处理技术,能完成:任意信号的卷积、任意信号的分解与合成;(三角波、正弦波、半波、全波等信号、各种调制信号),可研究谐波幅度、谐波相位对信号合成的影响; 7.内置USB接口和高速数据采集模块,可实现基于LABVIEW虚拟示波器、虚拟频谱仪、虚拟选频表功能。在PC机上进行实时的信号时域频域分析;演示实时信号合成原理及吉布斯效应。采集数据可以存贮,在PC机后台分析处理各种信号:如带宽分析、频谱分析、能量分析等。 8.实验平台内置语音接口,专用语音采集芯片,采用“过采样”和“抽取滤波”技术确保语音在8KHZ 采样时也有很好的恢复效果,采样率从8KHZ到96KHZ可编程; 9.能进行DSP、数字信号处理、语音处理、虚拟仪器的二次开发,DSP和数字信号处理的二次开发软件能通过USB接口直接下载,不需仿真器;提供基于LABVIEW的虚拟仪器开发VI函数; 10.能完成信号系统的实验类型:阶跃响应与冲激响应、抽样定理与信号恢复、连续时间系统的模拟、零输入与零状态响应、二阶电路暂态响应、二阶电路传输特性、信号卷积、任意信号分解与合成、谐波幅度与相位对合成信号的影响、模拟滤波器与数字滤波器、虚拟仪器、数字滤波器在线设计及任意信号谐波分析、信号时域频域分析等实验。 11.能完成语音处理实验类型:语音信号的数字化(可以听原声,看波形图);语音基语提取,傅里叶变换(幅频特性与相频特性),语音信号尺度变换(分析变换前后语音及其频谱变化)、语音带限处理频谱分析(语音信号分别通过低通、高通和带通滤波器); 三、实验项目

哈尔滨工程大学 语音信号处理实验报告

实 验 报 告 实验课程名称: 语音信号处理实验 姓名: 班级: 20120811 学号: 指导教师 张磊 实验教室 21B#293 实验时间 2015年4月12日 实验成绩 实验序号 实验名称 实验过程 实验结果 实验成绩 实验一 语音信号的端点检测 实验二 语音信号的特征提取 实验三 语音信号的基频提取

实验一 语音信号的端点检测 一、实验目的 1、掌握短时能量的求解方法 2、掌握短时平均过零率的求解方法 3、掌握利用短时平均过零率和短时能量等特征,对输入的语音信号进行端点检测。 二、实验设备 HP 计算机、Matlab 软件 三、实验原理 1、短时能量 语音信号的短时能量分析给出了反应这些幅度变化的一个合适的描述方法。对于信号)}({n x ,短时能量的定义如下: ∑ ∑∞ -∞ =∞ -∞ =*=-= -= m m n n h n x m n h m x m n w m x E )()()()()]()([222 2、短时平均过零率 短时平均过零率是指每帧内信号通过零值的次数。对于连续语音信号,可以 考察其时域波形通过时间轴的情况。对于离散信号,实质上就是信号采样点符号变化的次数。过零率在一定程度上可以反映出频率的信息。短时平均过零率的公式为: ∑∑-+=∞ -∞=--= ---=1)] 1(sgn[)](sgn[2 1 ) ()]1(sgn[)](sgn[21N n n m w w m n m x m x m n w m x m x Z 其中,sgn[.]是符号函数,即 ? ? ?<-≥=0)(10)(1 )](sgn[n x n x n x

相关主题
相关文档 最新文档