基于TMS320VC5509A的语音识别与控制系统

           语音识别（Speech Recognition）是机器通过训练和匹配过程把语音信号转变为相应的文本或命令的技术。关于语音识别技术，先后出现了动态时间弯折（DTW）、隐马尔可夫和人工神经网络三种主要方法[1]。由于每种方法都涉及大量的乘加运算，并且计算精度是算法性能的有效保障，因此对处理器的运算能力要求较高。近年大规模集成电路的快速发展，为语音识别的实现创造了硬件条件。目前，基于DSP的语音识别系统多以浮点型DSP为主[2]，但其成本较高。本文以TI公司的较低成本定点DSP TMS320VC5509A作为处理芯片。在软件编程时，考虑运算速度和精度对性能的影响，将定点运算与基于定点DSP的浮点运算巧妙结合，既保证了处理速度，又提高了运算精度和识别率。此外，该系统的DSP芯片自带USB接口，可使程序下载不借助于硬件仿真器，便于推广应用；可编程逻辑器件（CPLD）能够根据识别结果发出相应的控制信号以驱动各种控制对象；外扩Flash达1M×16Bit，不仅能存储较多数量的模板，也可实现程序的并行加载，使系统能够脱机运行，便于携带。通过对语音信号的采集与识别，能够完成对特定人、小词汇量、孤立词的识别，并且能发出相应的控制信号，以达到系统的设计要求。实践验证了该系统具有可靠性、稳定性和灵活性。

       1 语音识别原理

        语音识别原理框图如图1所示。语音信号输入之后，预处理和数字化是进行语音识别的前提条件。其中，预处理主要是进行预滤波，保留正常人的300～3400Hz的语音信号；数字化是要进行A/D转换及抗混叠等处理；特征提取是进行语音信号训练和识别必不可少的步骤。能够体现语音信号特征的参数包括：(1)基于LPC的倒谱参数；(2)Mel系数的倒谱参数；(3)采用前沿数字信号处理技术的特征分析手段，如小波分析、时/频域分析、人工神经网络等。本文采用基于LPC的倒谱参数表示方法，提取出的特征值存入参考模式库中，用来匹配待识别语音信号的特征值。匹配计算是进行语音识别的核心部分，由待识别人的语音经过特征提取后，与系统训练时产生的模板进行匹配，在说话人辨认中，取与待识别语音相似度最大的模型所对应的语音作为识别结果，这就是语音识别的整个过程[1]。

2 硬件结构部分

本系统的硬件结构框图如图2所示。

此系统的核心器件是TI公司的TMS320VC5509A定点DSP芯片。它是系统的运算处理单元，具有2个乘法器(MAC)，4个累加器(ACC)；40位、16位的算术逻辑单元(ALU)各一个，这大大增强了DSP的运算能力；指令字长不只单一的16位，可扩展到最高48位，数据字长16位；在144MHz下工作，指令周期可达6.94ns。TMS320VC5509A还提供高速的多通道缓冲串口McBSP(Multi-channel Buffererd Serial Ports），DSP可通过McBSP与其他DSP、编解码器等器件相连。McBSP具有全双工通信，双缓冲数据寄存器，允许传送连续的数据流，能够向CPU发送中断，向DMA控制器发送DMA事件，可设置帧同步脉冲和时钟信号的极性等功能，这大大方便了DSP采集音频信号[3]。除此之外，TMS320VC5509A还提供了更为高效的外部存储器接口（EMIF），以往DSP的空间选通信号被片选信号取代，而每个片选信号分别占用不同的地址空间，这样就不需要外部的译码电路，从而实现了与外部设备的无缝连接，可使DSP外部存储空间扩大到满足系统要求。值得强调的是，可通过USB接口对TMS320VC5509A烧写程序而不必借助仿真器。正是基于这些优点，选择该芯片可节省开发资金，减小电路板面积。

TLV320AIC23是TI公司的一款低成本、低功耗的音频编解码芯片(CODEC)，在本系统中负责采集语音信号。它与本系统相关的性能参数如下：(1)支持8kHz～96kHz可调采样率；(2)与DSP连接，主从类型可通过软件编写来实现；(3)DSP可通过I2C总线来配置TLV320AIC23的寄存器；(4)采集语音信号字长16/20/24/32Bit；(5)MIC音频输入具有强抗噪性；(6)具有可调1～5dB的完整缓存放大系统[4]。

与非网

基于TMS320VC5509A的语音识别与控制系统

相关文章

»

智能电表来了，你准备好了吗？

»