好了,经过预处理之后就可以真正开始进行时域分析了,这里的时域分析主要包含短时平均能量、短时过零分析、短时自相关分析以及高阶统计量分析等。
短时平均能量(Short Time Average Energy)可以理解为先计算信号格采样值的平方,然后用一个移动窗h(n-m)选取出一个个短时平方序列,并将各段的平方值求和,从而得到短时能量序列。短时平均能量(En)可以用来从清音中区分浊音(浊音的En比清音大得多),可以用来确定声母和韵母、无声与有声、连字等的分界,还可以作为一种超音段信息用于语音识别。但短时平均能量En对于高电平信号可能产生溢出,此时可以采用短时平均幅度(Short Time Average Magnitude)来度量语音信号幅度的变化。
信号的幅度值从正值到负值要经过零点,从负值到正值也要经过零点,称为过零,统计信号在单位时间(如1s)内过零的次数,就成为过零率。如果信号按段分割,就成为短时,把各段信号的过零率做统计平均,就是短时平均过零率(Short Time Average Cross Zero Ratio)。短时平均过零率(Zn)可以作为“频率”来理解。过零率可以用来定量的分析清音/浊音,特别是在背景噪声电平较大时更为有效(相比短时平均能量而言),有时还可以同时结合Zn和En来进行判定。
如果说短时平均过零率是描述复杂波形“频率”特征的一个参数,那么短时平均上升过零间隔(Short Time Rise Zero-Crossing Inteval)就是描述复杂波形“周期”特性的参数。研究表明:在一定噪声背景下,该参数具有很好的稳健性,对不同的语音具有很好的差异性。
自相关函数是偶函数,语音信号的短时自相关函数(Short Time Autocorrelation Function)可以理解为序列[x(n)x(n-k)]通过一个冲激响应为hk(n)的数字滤波器的输出,即有Rn(k) = [x(n)x(n-k)]*hk(n)。短时自相关函数是语音信号时域分析中的一个重要参量,但是运算量很大。短时平均幅度差函数AMDF(Short Time Average Magnitude Difference Function)与自相关函数有类似的功效,但运算量可降低许多,所以在语音信号处理中应用广泛。
最后是高阶统计量了。近来高阶统计量在语音信号处理中应用也越来越多,高阶统计量一般指高阶矩(Moment)、高阶累积量(Cumulant)以及他们的谱——高阶矩谱和高阶累积量谱。首先定义了随机变量x的(第一)特征函数(也称为矩生成函数),实际为它的密度函数f(x)的傅里叶变换。然后定义了第二特征函数(也称为累积量生成函数),它是第一特征函数的对数。还有随机变量x的k阶矩(mk)的定义,它是x的k次幂与f(x)的乘积在x∈R上的积分。类似的还有k阶中心矩(μk)的定义,都与概率论中的定义差不多。现在,可以对第一、二特征函数进行泰勒展开,可以得到ck(x的k阶累积量)和mk之间的一些关系,可以发现k<4时,ck=μk,此时ck的物理意义与μk的物理意义相同,而k>=4时,则不相等。对于c3,描述了概率分布的对称性,通过定义一个新的概念——偏度(Skewness,也称为偏态系数)来衡量。对于c4,文中为了简化,假设了x的均值为0,然后定义了一个称为峰态(也称峰度,Kurtosis)的概念,以表示分布相对于正太分布的尖锐或平坦程度。后面两小节分别对此进行了从单个随机变量到多个随机变量的推广的分析和随机变量服从高斯分布(正态分布)的特殊情形做了分析。
好了,经过预处理之后就可以真正开始进行时域分析了,这里的时域分析主要包含短时平均能量、短时过零分析、短时自相关分析以及高阶统计量分析等。
短时平均能量(Short Time Average Energy)可以理解为先计算信号格采样值的平方,然后用一个移动窗h(n-m)选取出一个个短时平方序列,并将各段的平方值求和,从而得到短时能量序列。短时平均能量(En)可以用来从清音中区分浊音(浊音的En比清音大得多),可以用来确定声母和韵母、无声与有声、连字等的分界,还可以作为一种超音段信息用于语音识别。但短时平均能量En对于高电平信号可能产生溢出,此时可以采用短时平均幅度(Short Time Average Magnitude)来度量语音信号幅度的变化。
信号的幅度值从正值到负值要经过零点,从负值到正值也要经过零点,称为过零,统计信号在单位时间(如1s)内过零的次数,就成为过零率。如果信号按段分割,就成为短时,把各段信号的过零率做统计平均,就是短时平均过零率(Short Time Average Cross Zero Ratio)。短时平均过零率(Zn)可以作为“频率”来理解。过零率可以用来定量的分析清音/浊音,特别是在背景噪声电平较大时更为有效(相比短时平均能量而言),有时还可以同时结合Zn和En来进行判定。
如果说短时平均过零率是描述复杂波形“频率”特征的一个参数,那么短时平均上升过零间隔(Short Time Rise Zero-Crossing Inteval)就是描述复杂波形“周期”特性的参数。研究表明:在一定噪声背景下,该参数具有很好的稳健性,对不同的语音具有很好的差异性。
自相关函数是偶函数,语音信号的短时自相关函数(Short Time Autocorrelation Function)可以理解为序列[x(n)x(n-k)]通过一个冲激响应为hk(n)的数字滤波器的输出,即有Rn(k) = [x(n)x(n-k)]*hk(n)。短时自相关函数是语音信号时域分析中的一个重要参量,但是运算量很大。短时平均幅度差函数AMDF(Short Time Average Magnitude Difference Function)与自相关函数有类似的功效,但运算量可降低许多,所以在语音信号处理中应用广泛。
最后是高阶统计量了。近来高阶统计量在语音信号处理中应用也越来越多,高阶统计量一般指高阶矩(Moment)、高阶累积量(Cumulant)以及他们的谱——高阶矩谱和高阶累积量谱。首先定义了随机变量x的(第一)特征函数(也称为矩生成函数),实际为它的密度函数f(x)的傅里叶变换。然后定义了第二特征函数(也称为累积量生成函数),它是第一特征函数的对数。还有随机变量x的k阶矩(mk)的定义,它是x的k次幂与f(x)的乘积在x∈R上的积分。类似的还有k阶中心矩(μk)的定义,都与概率论中的定义差不多。现在,可以对第一、二特征函数进行泰勒展开,可以得到ck(x的k阶累积量)和mk之间的一些关系,可以发现k<4时,ck=μk,此时ck的物理意义与μk的物理意义相同,而k>=4时,则不相等。对于c3,描述了概率分布的对称性,通过定义一个新的概念——偏度(Skewness,也称为偏态系数)来衡量。对于c4,文中为了简化,假设了x的均值为0,然后定义了一个称为峰态(也称峰度,Kurtosis)的概念,以表示分布相对于正太分布的尖锐或平坦程度。后面两小节分别对此进行了从单个随机变量到多个随机变量的推广的分析和随机变量服从高斯分布(正态分布)的特殊情形做了分析。
好了,经过预处理之后就可以真正开始进行时域分析了,这里的时域分析主要包含短时平均能量、短时过零分析、短时自相关分析以及高阶统计量分析等。
短时平均能量(Short Time Average Energy)可以理解为先计算信号格采样值的平方,然后用一个移动窗h(n-m)选取出一个个短时平方序列,并将各段的平方值求和,从而得到短时能量序列。短时平均能量(En)可以用来从清音中区分浊音(浊音的En比清音大得多),可以用来确定声母和韵母、无声与有声、连字等的分界,还可以作为一种超音段信息用于语音识别。但短时平均能量En对于高电平信号可能产生溢出,此时可以采用短时平均幅度(Short Time Average Magnitude)来度量语音信号幅度的变化。
信号的幅度值从正值到负值要经过零点,从负值到正值也要经过零点,称为过零,统计信号在单位时间(如1s)内过零的次数,就成为过零率。如果信号按段分割,就成为短时,把各段信号的过零率做统计平均,就是短时平均过零率(Short Time Average Cross Zero Ratio)。短时平均过零率(Zn)可以作为“频率”来理解。过零率可以用来定量的分析清音/浊音,特别是在背景噪声电平较大时更为有效(相比短时平均能量而言),有时还可以同时结合Zn和En来进行判定。
如果说短时平均过零率是描述复杂波形“频率”特征的一个参数,那么短时平均上升过零间隔(Short Time Rise Zero-Crossing Inteval)就是描述复杂波形“周期”特性的参数。研究表明:在一定噪声背景下,该参数具有很好的稳健性,对不同的语音具有很好的差异性。
自相关函数是偶函数,语音信号的短时自相关函数(Short Time Autocorrelation Function)可以理解为序列[x(n)x(n-k)]通过一个冲激响应为hk(n)的数字滤波器的输出,即有Rn(k) = [x(n)x(n-k)]*hk(n)。短时自相关函数是语音信号时域分析中的一个重要参量,但是运算量很大。短时平均幅度差函数AMDF(Short Time Average Magnitude Difference Function)与自相关函数有类似的功效,但运算量可降低许多,所以在语音信号处理中应用广泛。
最后是高阶统计量了。近来高阶统计量在语音信号处理中应用也越来越多,高阶统计量一般指高阶矩(Moment)、高阶累积量(Cumulant)以及他们的谱——高阶矩谱和高阶累积量谱。首先定义了随机变量x的(第一)特征函数(也称为矩生成函数),实际为它的密度函数f(x)的傅里叶变换。然后定义了第二特征函数(也称为累积量生成函数),它是第一特征函数的对数。还有随机变量x的k阶矩(mk)的定义,它是x的k次幂与f(x)的乘积在x∈R上的积分。类似的还有k阶中心矩(μk)的定义,都与概率论中的定义差不多。现在,可以对第一、二特征函数进行泰勒展开,可以得到ck(x的k阶累积量)和mk之间的一些关系,可以发现k<4时,ck=μk,此时ck的物理意义与μk的物理意义相同,而k>=4时,则不相等。对于c3,描述了概率分布的对称性,通过定义一个新的概念——偏度(Skewness,也称为偏态系数)来衡量。对于c4,文中为了简化,假设了x的均值为0,然后定义了一个称为峰态(也称峰度,Kurtosis)的概念,以表示分布相对于正太分布的尖锐或平坦程度。后面两小节分别对此进行了从单个随机变量到多个随机变量的推广的分析和随机变量服从高斯分布(正态分布)的特殊情形做了分析。
0 有用 小土刀 2014-09-20 06:23:45
图书馆里少数能找到的语音相关的书,主要是一些理论基础
0 有用 歪 2010-11-22 13:31:09
在国内写成这样的很少了。
0 有用 黑榜麦芽糖 2020-06-02 22:00:05
在Fundamental of Speech Processing之前看
0 有用 ibillxia 2013-07-14 22:02:24
语音识别基础入门书籍!
0 有用 黑榜麦芽糖 2020-06-02 22:00:05
在Fundamental of Speech Processing之前看
0 有用 小土刀 2014-09-20 06:23:45
图书馆里少数能找到的语音相关的书,主要是一些理论基础
0 有用 ibillxia 2013-07-14 22:02:24
语音识别基础入门书籍!
0 有用 歪 2010-11-22 13:31:09
在国内写成这样的很少了。