语音信号处理基础.ppt
在这个模型中,除了G(z)和R(z)保持不变以外,基音频率、Av、Au、清/浊开关的位置以及声道模型中的参数都是随时间变化而变化的。由于发声器官的惯性使这些参数的变化速度受到限制。对于声道参数而言,在10~30ms的时间间隔内可以认为它们保持不变,因此语音的短时分析帧长一般取为10~30ms。需注意的是:把激励简单分为周期脉冲激励和噪声激励是与实际情况不完全符合。如果将模型的激励源改为上述两种激励按任何比例相叠加,这更加接近于实际情况。这个模型的传输函数不包含有限传输零点,而像鼻音、擦音这样一些音的声道传输函数中包含有限零点的。解决方法就是适当提高阶数p,使得全极点模型更好得逼近具有零点的传输函数。语音信号产生的数字模型第二章语音信号处理基础语音信号的产生1语音信号的特性2语音信号产生的数字模型3语音感知401声音是一种波形:振动频率在20-20KHz,如乐器声、雷声、风声、雨声等;02语音是声音的一种,由人发音器官发出,具有一定的语法和语义,语音的最高频率可达15KHz,一般可听的语音频率为80Hz~3.5KHz;03音乐(音频)也是声音的一种,由人发音器官及乐器混合发出,具有一定的语法和语义,一般可听的音频频率为20Hz~22KHz;语音的产生传送阶段(物理过程):语音(声波)→媒介(空气)→听者(可能会产生失真或损耗)03说出阶段:神经中枢→发出指令→各器官协调→发音(机能效果)→反馈→修正;02想说阶段:客观现实→大脑反映→说话动机→神经中枢→想表达内容和情感;01人的说话过程分为5个阶段:语音的产生接受阶段:外耳→中耳放大→内耳(基底膜振动)→神经元(产生脉冲)→大脑;01理解阶段:神经中枢→脉冲信息→辨认信息(如何辨认,尚未知)。025个阶段有心理、生理、物理以及人和社会的因素。03人的说话过程分为5个阶段:语音的产生语音的产生发音器官模型语音的产生人类的发音器官语音的产生语音信号的产生过程语音的产生语音:由若干个音节(syllable)组成。音节:可以由一个或若干个音素(phoneme)组成;音素:是发音的最小单位,有两种音素,即辅音和元音。如一个音节dan(但)就包括dan三个音素,也有的音节是由一个音素构成的,如a“啊”。元音:声带振动发音时,气流从喉腔、咽腔进入口腔从唇腔出去时,声腔完全开发,气流顺利通过。半元音:声道基本畅通,但某处声道比较狭窄,引起轻微的摩擦声。辅音:是呼出的声音,气流被阻不能畅通。语音的产生元音的分类根据舌位來分舌位前后–Front前–Central中央–Back后舌位高低(嘴开的大小)–High,(close)–Mid,(closemid,openmid)–Low,(open)上述共有9种组合。口唇开放程度9种组合加口唇开放程度就可发10多个不同的单元音。汉语音节:一个音节(syllable)就是一个字的音,字是独立的发音单位,由声母和韵母构成。1词:由音节构成。2句子:由词构成。3音素:声母是一个音素,而韵母则较复杂。4声调:音调在发一个音节中的变化。5汉语特点:音素少、音节少,64个音素、400多个音节6汉语语音知识语音的产生声学特性22%语音信号的统计特性40%语音信号的时域波形和频谱特性38%语音信号的特性语音信号的特性010203浊音:当气流通过声门时,如果声带的张力刚好使声带发生张弛振荡,产生一股准周期的气流,这一气流激励声道就产生浊音。清音:当气流通过声门时,如果声带不振动,而在某处收缩,迫使气流以高速通过这一收缩部分而产生清音。爆破音:如果使声道完全闭合,在闭合后建立起气压,然后释放,就得到爆破音。语音按其激励形式的不同可以分为三类:语音信号的特性浊音的声带振动频率称为基本频率又称基音频率,用F0表示,发音时,各个元音段的F0都随时间而变,F0的变化产生了音调,F0随的变化轨迹称为声调轨迹,声调反映了语音的韵律。基音频率(简称基频)的范围为:男性偏低一般为50Hz≤F0≤200Hz;女性、小孩偏高一般为200Hz≤F0≤450Hz;基音频率的倒数称为基音周期(pitchperiod)。浊音的特性:基音频率语音信号的特性共振峰(Formant):指谐振频率。声道可看成是一根具有非均匀截面的声管,发音时起共鸣作用,当激励进入声道时会引起共振特性,产生一组共振频率。01共振峰有多个,从低频到高频排列F1,F2,F3,…,一般的浊音中可以辨别的共振峰有5个,其中