语音识别芯片技术的原理

语音芯片知识点, 新闻资讯 | 2023年2月28日 | admin

语音识别技术的原理

定义：语音识别技术（ASR Automatic Speech Recognition)，让智能设备听懂人类的语音。语音识别的工作流程，可以分为三大部分：前端语音处理、模型训练、后端识别处理

1、前端处理

前端处理，即将声音的模拟信号，转换成机器能处理的数字信号，并对信号进行优化。语音识别的硬件链路通常是：MIC 麦克风—>ADC/PDM（模数转化）——>Codec/DSP/NPU（信号优化和处理）。其中麦克风/ADC/PDM为前段处理部分，DSP/NPU的部分（例如降噪算法）也属于前段处理。

MIC 麦克风采集外部声音的硬件，关键参数是灵敏度dB和信噪比SNR。按信号输出分：模拟麦和数字麦，数字麦是在模拟麦的基础上内置ADC，直接对外输出数字信号。
按产品形态分：驻极体ECM和硅麦MEMS，前者工艺成熟成本低，后者体积小，常见于手机应用。

前端处理的原理简化描述：

音频采集：通过麦克风，将声波转换为模拟电信号，再通过ADC转换为数字信号
预处理：静音切除 VAD、分侦加窗、降噪（主动降噪ANC）、预加重等
特征提取：图中选的是主流的MFCC，其他还有LPCC，PLP等，选取后续可以匹配的特征点

模型训练

模型可以简单理解为“字典”，机器可以查字典，去比对输入的信息，找出正确答案近几年的模型训练发展，开始纳入语言模型，让机器能翻译出人类语言，进而达到更准确的识别效果。

声学模型训练：
声学模型是识别系统的底层模型，是语音识别系统中关键的部分，算法主要集中优化该部分。
声学模型是通过大量的语音收集，并根据特定的算法规则获得特征值，用于后面的识别比对。
语言模型训练：
语言模型是用来计算一个句子出现概率的概率模型，是语音识别中的”字典”
它需要综合三个层次的知识：字典，语法，句法，让机器能更好理解人类的自然语言。

3、后端识别处理（语音解码）

应用中实时将人声采集进来，跟“声学模型”和“语言模型”匹配比较，并输出正确的识别结果该步骤跟模型建立有深度关联，有时将”模型建立”归类到后端识别处理中，与前端处理对应识别准确率和响应速度，综合取决于算法优化，硬件主频，以及前端信号的降噪能力（分离人声）。

按照市场主流的观点，我们将语音识别区分为在线和离线：

在线语音识别，即大词汇量连续语音识别系统，拥有智能交互的特点
典型应用：智能音箱、智能手机助手、在线翻译、智能客服等
离线语音识别，即小词汇量、低成本的语音识别系统，应用场景相对单一
典型应用：智能家电、语音遥控器、智能玩具、车载声控、智能家居等

离线和在线最大的区别在于，在线语音识别需要联网，实际的语音识别过程在云端或服务器（高性能处理器和大容量数据存储），需确保网络连接稳定和通畅。离线则无需联网和任何其他外部设备的支持，上电即可使用，语音识别工作发生在本地设备（低成本MCU/NPU/DSP和极小存储容量）。离线的存在，可以简单视为在线语音技术的简化版，将场景单一化减少需要识别的对象，实现硬件成本最低化，更符合广大消费者的价格需求。

语音识别技术的原理

1、前端处理

3、后端识别处理 （语音解码）

分类目录

3、后端识别处理（语音解码）