音频冗余的主要表现形式_技术文章

取消

热门搜索: XUNWEI 可视化分布式系统; 高清混合矩阵; XUNWEI 品牌介绍; 讯维KVM坐席协作系统; 服务与支持; 讯维销售电话：400-6269-808

技术文章

音频冗余的主要表现形式

数字信号有自身相应的缺点，即存储容量需求的增加及传输时信道容量要求的增加。以CD为例，其采样率为44.1 kHz,量化精度为16 bit,则1 min的立体声音频信号需占约10 MB的存储容量，也就是说，张CD唱盘的容量只有1 h左右。当然,在带宽高得多的数字视频领城这一问题就显得更加突出。是不是所有这些比特都是必需的呢?研究发现，接采用PCM码流进行存储和传输存在非常大的冗余度。事实上，在无损的条件下对声首至少可进行4:1压缩，即只用25%的数字量保留所有的信息，而在视频领域压缩比甚至可以达到几百倍。因此，为利用有限的资源，压缩技术从一出现便受到广泛的重视。

声明：部分内容及图片来源于网络，如有侵权请联系删除。

信号(数据)之所以能进行压缩，是因为信号本身存在很大冗余度。根据统计分析结果，音频信号中存在着多种冗余,其主要部分可分别从时域和频域来考虑。另外,由于音频主要是给人听的，所以考虑人的听觉机理，也能对音频信号实行压缩。

1、时城冗余

音频信号在时城上的冗余主要表现为以下几个方面:

(1)幅度分布的非均匀性

统计表明，在大多数类型的音频信号中,小幅度样值出现的概率比大幅度样值出现的概率要高。人的语音中，间歇、停顿等出现了大量的低电平样值;实际讲话的功率电平也趋向于出现在编码范围的较低电平端。

(2)样值间的相关性

对语音波形的分析表明，相邻样值之间存在很强的相关性。当采样频率为8 kHz时，相邻样值之间的相关系数大于0.85。如果进步提高采样频率，则相邻样值之间的相关性将更强。因此，根据较强的维相关性，可以利用差分编码技术进行有效的数据压缩。

(3)周期之间的相关性

虽然音频信号分布于20 Hz ~ 20 kHz的频带范围，但在特定的瞬间,某一声音却往往只是该频带内的少数频率成分在起作用。当声音中只存在少数几个频率时，就会像某些振荡波形一样，在周期与周期之间存在着一定的相关性。利用音频信号周期之间的相关性进行压缩的编码器,比仅仅利用邻近样值间的相关性的编码器效果好，但要复杂得多。

(4)静止系数

两个人之间打电话，平均每人讲话时间为通话时间的一半,并且在这一半的通话过程中也会出现间歇停顿。分析表明，话音间隙使全双工话路的典型效率约为40% (或称静止系数为0.6)。?显然，话音间隔本身就是一种冗余，若能正确检测出这些静止段，可"插空"传输更多信息。

(5)长时自相关函数

统计样值、周期间的一些相关性时，在20 ms时间间隔内进行统计的称为短时自相关函数。如果在较长的时间间隔（如几十秒)内进行统计时，则称为长时自相关函数。长时统计表明，当采样频率为8 kHz时，相邻的样值之间的平均相关系数可高达0.9。

2、频域冗余

音频信号的频域冗余主要表现为以下几个方面:

(1)长时功率谱密度的非均匀性

在相当长的时间间隔内进行统计平均，可以得到长时功率谱密度函数，其功率谱呈现明显的非平坦性。从统计的观点看,这意味着没有充分利用给定的频段.或者说存在固有的冗余度。功率谱的高频成分能量较低。

(2)语音特有的短时功率谱密度

语音信号的短时功率谱，在某些频率上出现"峰值"，而在另一些频率上出现"谷值"。这些峰值频率，也就是能量较大的频率,通常称其为共振峰频率。共振峰频率不止一个,最主要的是前三个，由它们决定不同的语音特征。另外，整个功率谱也是随频率的增加而递减的。更重要的是整个功率谱的细节以基音频率为基础，形成了高次谐波结构。

3、听觉冗余

人是音频信号的最终用户，因此，要充分利用人类听觉的生理和心理特性对音频信号感知的影响。利用人耳的频率特性灵敏度以及掩蔽效应，可以压缩数字音频的数据量。

①可以将会被掩蔽的信号分量在传输之前就去除，因为这部分信号即使传输了也不会被听见。

②可以不理会可能被掩蔽的量化噪声。

③可以将人耳不敏感的频率信号在数字化之前滤除，如语音信号只保留300 -3 400 Hz的信号。

返回