1 语音识别原理
语音识别原理框图如图1所示。语音信号输入之后,预处理和数字化是进行语音识别的前提条件。其中,预处理主要是进行预滤波,保留正常人的300~3400Hz的语音信号;数字化是要进行A/D转换及抗混叠等处理;特征提取是进行语音信号训练和识别必不可少的步骤。能够体现语音信号特征的参数包括:(1)基于LPC的倒谱参数;(2)Mel系数的倒谱参数;(3)采用前沿数字信号处理技术的特征分析手段,如小波分析、时/频域分析、人工神经网络等。本文采用基于LPC的倒谱参数表示方法,提取出的特征值存入参考模式库中,用来匹配待识别语音信号的特征值。匹配计算是进行语音识别的核心部分,由待识别人的语音经过特征提取后,与系统训练时产生的模板进行匹配,在说话人辨认中,取与待识别语音相似度最大的模型所对应的语音作为识别结果,这就是语音识别的整个过程[1]。
本系统的硬件结构框图如图2所示。
TLV320AIC23是TI公司的一款低成本、低功耗的音频编解码芯片(CODEC),在本系统中负责采集语音信号。它与本系统相关的性能参数如下:(1)支持8kHz~96kHz可调采样率;(2)与DSP连接,主从类型可通过软件编写来实现;(3)DSP可通过I2C总线来配置TLV320AIC23的寄存器;(4)采集语音信号字长16/20/24/32Bit;(5)MIC音频输入具有强抗噪性;(6)具有可调1~5dB的完整缓存放大系统[4]。