1 语音识别原理
语音识别原理框图如图1所示。语音信号输入之后,预处理和数字化是进行语音识别的前提条件。其中,预处理主要是进行预滤波,保留正常人的300~3400Hz的语音信号;数字化是要进行A/D转换及抗混叠等处理;特征提取是进行语音信号训练和识别必不可少的步骤。能够体现语音信号特征的参数包括:(1)基于LPC的倒谱参数;(2)Mel系数的倒谱参数;(3)采用前沿数字信号处理技术的特征分析手段,如小波分析、时/频域分析、人工神经网络等。本文采用基于LPC的倒谱参数表示方法,提取出的特征值存入参考模式库中,用来匹配待识别语音信号的特征值。匹配计算是进行语音识别的核心部分,由待识别人的语音经过特征提取后,与系统训练时产生的模板进行匹配,在说话人辨认中,取与待识别语音相似度最大的模型所对应的语音作为识别结果,这就是语音识别的整个过程[1]。
2 硬件结构部分
本系统的硬件结构框图如图2所示。
此系统的核心器件是TI公司的TMS320VC5509A定点DSP芯片。它是系统的运算处理单元,具有2个乘法器(MAC),4个累加器(ACC);40位、16位的算术逻辑单元(ALU)各一个,这大大增强了DSP的运算能力;指令字长不只单一的16位,可扩展到最高48位,数据字长16位;在144MHz下工作,指令周期可达6.94ns。TMS320VC5509A还提供高速的多通道缓冲串口McBSP(Multi-channel Buffererd Serial Ports),DSP可通过McBSP与其他DSP、编解码器等器件相连。McBSP具有全双工通信,双缓冲数据寄存器,允许传送连续的数据流,能够向CPU发送中断,向DMA控制器发送DMA事件,可设置帧同步脉冲和时钟信号的极性等功能,这大大方便了DSP采集音频信号[3]。除此之外,TMS320VC5509A还提供了更为高效的外部存储器接口(EMIF),以往DSP的空间选通信号被片选信号取代,而每个片选信号分别占用不同的地址空间,这样就不需要外部的译码电路,从而实现了与外部设备的无缝连接,可使DSP外部存储空间扩大到满足系统要求。值得强调的是,可通过USB接口对TMS320VC5509A烧写程序而不必借助仿真器。正是基于这些优点,选择该芯片可节省开发资金,减小电路板面积。
TLV320AIC23是TI公司的一款低成本、低功耗的音频编解码芯片(CODEC),在本系统中负责采集语音信号。它与本系统相关的性能参数如下:(1)支持8kHz~96kHz可调采样率;(2)与DSP连接,主从类型可通过软件编写来实现;(3)DSP可通过I2C总线来配置TLV320AIC23的寄存器;(4)采集语音信号字长16/20/24/32Bit;(5)MIC音频输入具有强抗噪性;(6)具有可调1~5dB的完整缓存放大系统[4]。