【语音处理】硬核介绍人体的感知和听觉特性

上一节主要介绍了关于语音信号产生的相关内容，本节将介绍和语音听觉相关的内容。

本节主要介绍语音感知和听觉特性，包括人体的语音听觉系统，客观度量和主观听觉感受以及听觉特性三方面内容。

作者&编辑 | 小米粥

编辑 | 言有三

1. 语音听觉系统

人耳主要分为外耳、中耳和内耳三部分。外耳的主要作用：生源源定位和声音放大（通过外耳道的共振效应实现）。中耳的主要作用：通过声阻抗变换实现声压放大和保护内耳。内耳的主要作用：将机械振动转换为神经信号。

内耳耳蜗中的基底膜具有频率选择特性。声波作为一种行波沿基底膜传播，而不同频率的声音将产生不同频率的谐波，其峰值将出现基底膜的不同位置上，如下图所示。对于多频率信号，行波将沿着基底膜在不同的位置产生最大振幅，其功能类似于频率分析。

2. 客观度量和主观听觉感受

2.1 声压

当空气中没有声波时，空气处于平衡态，此时的静压强等于大气压。声音是由振动产生的，当声波在空气介质中传播时，空气将产生膨胀和压缩的周期性变化，相应的，空气压强也将不断变化。声压是指声波传播时介质中心的压强与无声音传播时的静压强的差值。声压的大小反应了声音振动的强弱和声波的振幅。声压P 是重要的声学基本量，其单位为帕（Pa），常用的计量方式包括：瞬时声压、峰值声压和有效声压等。

2.2 声压级

人耳能感受到的声压范围为0.00002Pa到20Pa，动态范围非常广。另外，人们对声音强弱的主观感受并不与声压的绝对值成正比，而是近似正比于声压的对数值。声压级是另一种用于表示声音强弱的客观度量方法，其基本单位为分贝（dB），即

其中，P为有效声压值，而Pref为基准声压，取值为0.00002Pa。基准声压是对于1kHz的声音，人耳所能感受到的最低声压。常见的声压级如下图所示。

声压和声压级是对声音的客观度量参数，而人耳对声音主要有响度、音调和音色三个主观听感要素。

2.3 响度

响度是人耳对声音强弱的主观感受程度。对于同一强度的声波，不同人听到的效果并不一样，其响度感受具有非常强的主观性，该感受与声压强度和声波频率均有直接关系。通常而言，在人类听觉范围内，对于同一频率的声音，响度与声压级近似是正比例关系。对于频率因素而言，当声音强度一定的情况下，人耳对于3-4kHz频率之间的声音具有最大的响度感受，这是因为人的外耳道与该频率的声波发生共振；当频率极低或极高时，无论声音强度多大，人耳也无法感受响度。

在计量响度时，定义频率为1kHz的纯音在声压级为40dB时，其响度为1宋（sone）。统计结果表明，当声压级每增加10dB时，响度N增加1倍，即

此外，人耳对声音强弱的主观感受还可以用响度级LN来表示。以1kHz的纯音为基准声音，将其他频率的纯音和1kHz的纯音相比较，调整前者的声压级，使得听者认为两个纯音一样响，则称该纯音的响度级在数值上和等响的1kHz纯音的声压级（dB）相等。响度级和响度的换算关系为

2.4 音调

音调是人耳对声音高低的主观感受。音调主要与频率相关，其与频率具有正相关关系，但是并没有严格的比例关系，并且因人而异。一般而言，频率低的声音给人低沉粗犷的感觉，而频率高的声音给人明快的感觉。另外，人耳在感受音调时需要一定的时间，至少要1.4个周期的声波才能感受到音调；对于纯音，其时值至少要达到3ms。

音调T的单位为美（Mel），定义声压为40dB，1kHz的纯音所产生的音调为1000Mel。若纯音听起来比1000Mel的音调高一倍，则为2000Mel。音调和频率的近似关系为

2.5 音色

音色是人耳对各种频率、各种强度的声波的综合反应，主要由频谱决定。声音与光类似，是由多种不同频率的成分组成的，可理解为由基波和高次谐波组成，谐波的多少和强弱构成不同的音色。例如，对于不同的乐器，当它们发出同一个声调时，虽然基本频率（基波）相同，但是由于材料结构等方面的不同，其谐波具有差异，因而我们可以区分不同的音色。通常而言，声音谐波数目越多，则听感更加丰富宽广；若频率成分较少，则音色单调乏味。

3.人耳听觉特性

3.1 听阈与痛阈

人耳只有在响度适中时才具有灵敏的辨音能力。在人耳的可听频率范围，声音强或弱到一定程度，人耳同样是听不见的，正常人听觉的声压级范围是0-140dB。一般以1kHz的纯音为测量标准，人耳刚能听到的声压级为0dB，此时强度称为最小可听阈值，简称为听阈；当声音增大140dB时，人耳感到疼痛，此时称为痛阈。

此外，人耳对不同频率声音的听阈和痛阈不一样，对声音的灵敏度也不一样。人耳痛阈受频率影响相对较小，而听阈受频率影响相对较大。

3.2 掩蔽效应

对于完美的频率分析系统，不同频率的成分将不会互相干扰、作用，但是人耳并不是高保真系统，有一定的局限性，并且人耳听觉系统中的机械传导系统是非线性系统，因而两个不同频率的声音同时进入人耳将产生掩蔽或者失真。例如，当人耳在听一个较弱的音时，若出现一个较强的音（掩蔽音），则人耳对较弱音（被掩蔽音）的灵敏度会降低，我们将这种现象称为掩蔽效应。

掩蔽效应是生理学和心理学的综合现象，主要分为同时掩蔽（频率域掩蔽）和异时掩蔽（时域掩蔽）。对于被掩蔽音，存在一个在安静环境下能被人听到的绝对听阈；当有掩蔽音出现的时候，提高被掩蔽音的强度，使人耳能够听见时听阈称为掩蔽听阈；而提高的强度分贝数被称为掩蔽量。可以看出，掩蔽听阈与掩蔽音是相关的。

在同时掩蔽中，频率域中强音会掩蔽同时与之发音的、频率相近的弱音，并且弱音离强音越近，越容易被屏蔽。如下图所示，橙色和绿色的弱音是被掩蔽音，它们将被频率相近的黄色的掩蔽音而掩蔽。实际中，一个1000Hz，60dB的纯音和1100Hz，42dB的纯音同时发出，人耳只能听到前者的强纯音。一般而言，低频的音更容易掩蔽高频的音。

在异时掩蔽中，相邻时间的强音会掩蔽弱音。若掩蔽效应出现在掩蔽音之前，则称为前掩蔽，反之，称之为后掩蔽。相比异时掩蔽，同时掩蔽是一种较强的掩蔽效应，其出现时间较长，而前掩蔽一般仅持续5-20ms，后掩蔽持续50-200ms。

掩蔽音主要分为纯音、宽带噪声和窄带噪声三种，而不同的掩蔽音和被掩蔽音组合将有不同的效果发，主要包括纯音对纯音的掩蔽，宽带噪声对纯音的掩蔽以及窄带噪声对纯音的掩蔽三种。

3.3 听觉延时效应

当两个强度相同的声音在时间先后到达人耳时，听觉对先后到达的声音的延时做出分辨的特性称为听觉延时效应（哈斯效应）。

实验表明，①如果前者和后者达到人耳的时间延迟在5-30ms以内，则无法听出是两个音，听觉上表现为前导音和延长音；②时间延迟在30-50ms之间，则能感受到两个音存在，但是方位由前导音决定；③当时间延迟超过50ms时，则能分别感受到两个音的存在和各自的方位。

视觉延时效应是立体声系统定向的重要基础之一，经常用于会场、厅堂的扬声器布置。例如，剧场中除了布置在舞台两侧的主扬声器外，还将在观众席的顶部和侧面布置扬声器。由于不同的扬声器和观众距离不同（顶部和侧面的扬声器距离观众较近），根据第二条哈斯效应，可能使观众产生声音并非来源于舞台，而是来源于顶部或者侧面的不真实感。此时，需要对顶部和侧面扬声器设置相关延时，并将延时控制在30ms以内。这样根据第一条哈斯效应，可实现视听一致的效果。

3.4 双耳效应

人耳听到声音可以大致分辨声音的来源方向，大致确定声源位置，我们将其称为双耳效应。当生源偏向左耳或者右耳时，声波到达左耳、右耳的时间、相位、声压、音色等均不同，因而双耳可根据这些信息差进行分辨。①对于时间差，在左右两耳连线上的音源到达两耳的时间差为0.62ms；②头颅对声音的阻隔作用使得声音达到两耳的声压级不同，在左右两耳连线上的音源到达两耳的声压级差25dB；③两耳在空间上的距离也将使声波传到两耳的相位产生差别；④对于右侧声源，其需要绕过头部才能到达左耳，而波的绕射能力与其障碍物尺度之间的比例相关。对于频率较高的声波分量，其绕过头颅的能力较差，衰减较大，因而双耳接受到的音色有差异。

利用双耳效应，我们可以在记录和重放时能把不同声源的空间位置反映出来，则在听录音时就彷佛听到各个方向的音源，这种体现空间分布特性的重放音即为立体声技术。

3.5 德波埃效应

对于听者正前方两只同样的扬声器，若功率、信号、相位都相同，则人耳无法区分这两个音源。若声压差大于15dB，则听者感觉声音来源于强度更大的扬声器；若时间差大于3ms，则听者感觉声音来自于声波先到达的扬声器。声强级差和时间差具有补偿效应，当声强差小于15dB，时间差小于3ms，则每5dB的声强差所引起的偏移效果相当于1ms的时间差。

[1] 韩纪庆, 张磊, 郑铁然. 语音信号处理.第2版[M]. 清华大学出版社, 2013.

[2] 赵力. 语音信号处理: 机械工业出版社[M]. 机械工业出版社, 2016.

[3] 卢官明, 宗昉. 数字音频原理及应用[M]. 机械工业出版社, 2012.

总结

本节的主要介绍语音感知和听觉特性，包括声压、声压强、响度、音调以及音色等声学感受，还包括双耳效应、掩蔽效应、延时效应等常见声学效应

下一节，我们将介绍语音信号的时域信号分析相关内容。

有三AI-语音群