特征提取

时间：2014年4月由@煮八戒翻译，由@wbgxx333校队和翻译，后由@wbgxx333搬移到这里。

简介

我们做特征提取和波形读取的这部分代码，其目的是为了得到标准的MFCC(译注：梅尔倒谱系数)和PLP(译注：感知线性预测系数)特征，设置合理的默认值但留了一部分用户最有可能想调整的选项（如梅尔滤波器的个数，最小和最大截止频率等等）。这部分代码只读取wav文件里的pcm(译注：脉冲编码调制)数据。这类文件通常带.wav或.pcm后缀（虽然有时.pcm后缀会用于sph文件；这种情况下必须转换该文件）。假如源数据不是wav类文件，则用户可自由选择命令行工具来转换，而我们提供的sph2pipe工具已能满足一般的情况。命令行工具compute-mfcc-feats和compute-plp-feats计算特征；同其它Kaldi工具一样，不带参数地运行它们会给出一个选项列表。例子脚本里显示了这些工具的用法。

计算MFCC特征

这里我们介绍如何使用命令行工具compute-mfcc-feats计算MFCC参数。该程序需要两个命令行参数：rspecifier是用来读.wav数据（以发音为索引）和wspecifier是用来写特征（以发音为索引）；参见 The Table concept和Specifying Table formats: wspecifiers and rspecifiers获取更多关于这些术语的解释。典型的用法是，将数据写入一个大的“archive”文件，也写到一个“scp”文件以便随机存取；参见Writing an archive and a script file simultaneously解释。程序没有添加增量功能（如需添加，参见add-deltas）。它接收选项-channel来选择通道（如–channel=0, –channel=1），该选项在读取立体声数据时很有用。计算MFCC特征由Mfcc类型的对象完成，它有Compute()函数可以根据波形计算特征。完整的MFCC计算如下所示：

计算出一个文件中帧的数目（通常帧长25ms帧移10ms）。
对每一帧：
- 提取数据，可选做dithering（注：直译为抖动，在这里可以理解为类似归一化的预处理），预加重和去除直流偏移，还可以和加窗函数相乘（此处支持多种选项，如汉明窗）
- 计算该点能量（假如用对数能量则没有C0）
- 做FFT（译注：快速傅里叶变换）并计算功率谱
- 计算每个梅尔滤波器的能量；如23个部分重叠的三角滤波器，其中心在梅尔频域等间距
- 计算对数能量并作余弦变换，根据要求保留系数（如13个）
- 选做倒谱变换；它仅仅是比例变换，确保系数在合理范围。

上下截止频率根据三角滤波器界定，由选项–low-freq和–high-freq控制，通常分别设置为0Hz和奈奎斯特频率附近，如对16kHz采样的语音设置为–low-freq=20 和 –high-freq=7800。 Kaldi的特征和HTK的特征在很多方面不同，但是几乎所有这些不同归结于有不同的默认值。用选项–htk-compat=true并正确设置参数，能得到同HTK非常接近的特征。一个可能重要的选项是我们不支持能量最大归一化。这是因为我们希望能把无状态方式应用到归一化方法，且希望从原理上计算一帧帧特征仍能给出相同结果。但是程序compute-mfcc-feats里有–subtract-mean选项来提取特征的均值。对每个语音做此操作；每个说话人可以有不同的方式来提取特征均值。（如在脚本里搜“cmvn”，表示倒谱均值和方差归一化）。

计算PLP特征

计算PLP特征的算法与MFCC的算法前期是一样的。稍后我们也许会在此部分增加些内容，但目前参见Hynek Hermansky《语音的感知线性预测（PLP）分析》，Journal of the Acoustical Society of America, vol. 87, no. 4, pages 1738–1752 (1990).

特征级声道长度归一化（VTLN）

程序compute-mfcc-feats和compute-plp-feats接收一个VTLN弯折因子选项。在目前的脚本中，这仅用作线性版的VTLN的初始化线性转换的一种方法。VTLN通过移动三角频率箱的中心频率的位置来实现。移动频率箱的弯折函数是一个在频域空间分段线性的函数。为理解它，记住以下数量关系：

0 <= low-freq <= vtln-low < vtln-high < high-freq <= nyquist

此处，low-freq和high-freq分别是用于标准MFCC或PLP计算的最低和最高频率（忽略更低和更高的频率）。vtln-low和vtln-high是用于VTLN的截止频率，它们的功能是确保所有梅尔滤波器有合适的宽度。我们实现的VTLN弯折函数是一个分段线性函数，三个部分映射区间[low-freq, high-freq]至[low-freq, high-freq]。记弯折函数为W(f)，f是频率。中段映射f到f/scale，scale是VTLN弯折因子（通常范围为0.8到1.2）。x轴上低段和中段的连接点是满足min(f, W(f)) = vtln-low的f点。x轴上中段和高端的连接点是满足max(f, W(f)) = vtln-high的f点。要求低段和高段的斜率和偏移是连续的且W(low-freq)=low-freq， W(high-freq)=high-freq。这个弯折函数和HTK的不同；HTK的版本中，"vtln-low"和"vtln-high"的数量关系是x轴上可以不连续的点，这意味着变量"vtln-high"必须基于弯折因子的可能范围的先验知识谨慎选择（否则梅尔滤波器可能为空）。一个合理的设置如下（以16kHz采样的语音为例）；注意这反映的是我们理解的合理值，并非任何非常细致的调试实验的结果。

low-freq	vtln-low	vtln-high	high-freq	nyquist
40	60	7200	7800	8000