什么是语音IC

一、语音基础知识

语音IC又称：语音芯片，又被叫做声音芯片，英文叫：speech IC或Voice IC。

语音IC定义：将语音信号通过采样转化为数字，存储在IC的ROM中，再通过电路将ROM中的数字还原成语音信号。

普通语音IC放音功能实质上是一个DAC过程，而ADC过程资料是由电脑完成，其中包括对语音信号的采样、压缩、EQ等处理。

音质的优劣取决于ADC和DAC位数的多少。例如，杰理的AC6082A系列，ADC和DAC均为48bit,接近真人音质。九齐（NYquest）的NY3,NY5系列，ADC和DAC均为16bit，接近CD音质。而钰绅语音芯片（YS）的YS58系列的DAC为8bit，为普通音质。

另外还有常见的输出：脉冲宽度调制(PWM）输出，是利用微处理器的数字输出来对模拟电路进行控制的一种非常有效的技术。其相对于DAC转换，其特点是应用广、成本低。

OTP语音芯片常用的规格：SOP8，SOP16，SSOP24：

二、语音信号的量化表述：（分类：语音IC 和音乐IC）

　1 、语音信号的量化

采样率（f）、位数（n）、波特率（T）

采样：将语音模拟信号转化成数字信号。

采样率：每秒采样的个数（byte）。

波特率：每秒钟采样的位数(bit)。波特率直接决定音质。Bps: bit per second

采样位数指在二进制条件下的位数。一般在没有特别说明的情况下，声音的采样位数指8位，由00H–FFH，静音定为80H。

2、采样率

奈奎斯特抽样定理（Nyquist Law）：要从抽样信号中无失真地恢复原信号，抽样频率应大于2倍信号最高频率。抽样频率小于2倍频谱最高频率时，信号的频谱有混叠。抽样频率大于2倍频谱最高频率时，信号的频谱无混叠。

嗓音的频带宽度为20～20K HZ左右，普通的声音大概在3KHZ以下。所以，一般CD取的音质为44.1K和16bit，如果碰到某些特别的声音，如乐器，音质也有用48K和24bit的情况，但不是主流。

一般在我们处理针对普通语音IC的时候，采样率最高达到16K就够了、说话声一般取8K（如电话音质）、6K左右。低于6K效果比较差。

在应用单片机的过程中，采样越高，定时器中断速度越快，会影响到其他信号的监控和检测，所以要综合考虑。

3、语音压缩技术
　　由于语音数据量庞大，对语音数据进行有效压缩是很必要的，能够使我们在有限的ROM空间里录入更多的语音内容。有以下几种方式：

语音分段：将语音中可以重复的部分截取出来，通过排列组合将内容完整地回放出来。

语音采样：一般我们使用的喇叭频响曲线在中频部分，较少用到高频，所以，在喇叭音质可以接受的情况下，适当降低采样频率，达到压缩效果，这种过程是不可逆的，无法恢复原貌，叫有损压缩。

数学压缩：主要是针对采样位数进行压缩，这种方式也是有损压缩。例如，我们经常采用的ADPCM压缩格式，是将语音数据从16bit压缩到4bit，压缩率是4倍。MP3是对数据流进行压缩，涉及到数据预测问题，它的波特率压缩倍率为10倍左右。

通常，以上几种压缩方式都是综合起来使用的。