自动语音识别系统的普及和视频内容共享信息和经验的使用正在急剧增加。用于捕捉声音的麦克风的性能和质量必须高,以确保良好的用户体验。关键因素包括噪声、畸变、频率响应和元件匹配。

 

在之前的文章中,已经简单说明了,麦克风性能的特点通常是自噪声和动态范围。动态范围的上限由声学过载点(AOP Acoustic Overload Point)定义。下限由信噪比(SNR Signal-to-noise Ratio)定义。信噪比描述了麦克风的自噪声。麦克风只能在其自噪声层以上的声压级(SPL)下接收信号。因此,高信噪比的麦克风可以在比低信噪比的麦克风更低的声压下工作。本文,则集中于信噪比(SNR)和声学过载点(AOP),并解释了在语音识别和音频/视频捕获系统中具有高麦克风性能的好处。

 

麦克风输出中的噪声可以定义为任何不是预期输入源的信号,通常被认为是输出信号中不希望出现的元素。噪声水平越高,越会降低音频信号的质量。噪声可以来自麦克风外部,也可以来自麦克风本身。人们通常听到麦克风的自噪音作为一种嘶嘶声,影响感知的声音质量。对于算法来说,噪声会恶化信号的保真度,从而降低系统性能。

 

麦克风的噪声可以用不同的方式表达:

  • 自噪声(Vrms、dBV、dBFS)是麦克风本身在不受外界声音激励时产生的rms噪声电压。

  • 信噪比(SNR (dB))描述了麦克风相对于预期输入信号的自噪声。信噪比的测量通常使用一个标准的声学输入信号来表示想要的声音,一个94 dBSPL (1 Pa)正弦波。

 

等效输入噪声EIN (dBSPL)是进入麦克风的(假想的)声学噪声水平,它相当于麦克风输出时的电子噪声水平。

 

所有现实生活中的音频传感器都是非线性系统,因为它们向通过它们的信号添加内容。在失真的情况下,增加的内容位于原始信号中出现的频率的谐波。失真通常以总谐波失真THD(如果包含自噪声则为THD+N)来测量。它是当麦克风被正弦波激发时,信号谐波中的能量(通常是第二到第五次谐波)与基频中的能量之比。测试信号通常是一个1 kHz的正弦信号,处于相对较高的声压级(SPL),通常为94 dBSPL或更高。THD以百分比(%)表示。声学过载点,AOP通常定义为THD超过10%的声压级。AOP的单元是dBSPL。

 

在大多数情况下,保持传入麦克风的声音的原始形式和内容是有益和重要的。在原始信号中加入内容,比如失真,可能会让听声音的人听起来不舒服。增加的能量越多(即THD值越高),感知到的音频质量就越差。失真还可能使语音识别系统等算法产生混淆,特别是对输入信号的内容进行非常详细分析的语音识别系统,失真造成的影响会更大。

 

图1 Acoustical SNR 信噪比示意

 

音频/视频录制的目的是捕捉来自受试者的传入声音,并将其复制到麦克风系统的输出中。当录音是为人类的耳朵,它是可取的电子输出信号匹配的声音信号尽可能接近,提供一个“自然”的声音记录。麦克风及其信噪比是声捕获信号链的关键部分,影响录音质量。下表给出了一些典型的用例。

 


在自然情况下,每增加一倍距离,声压减半(降低6分贝)。捕获的声源越远,到达麦克风的声音信号就越安静。由于麦克风的自噪声实际上是恒定的,输入信号电平的降低会导致麦克风输出信号的信噪比降低。通常,弱信号必须被放大,使其达到设备信号路径的适当水平。放大信号也会放大输出信号中的噪声。放大倍数越大,噪声上升到显著降低捕获信号质量的水平的风险就越大。

 

高麦克风信噪比有助于保持本底噪声是几乎听不见的,即使信号被放大。捕获距离越长,麦克风的自噪声越小,以避免出现问题。当距离很长且声源本身很安静时,这一点尤其重要。当每增加一倍的距离,声压会衰减6分贝时,使用高信噪比6分贝的麦克风,可以使捕捉距离加倍而不会降低信号质量。

 

POLQA (Objective Listening Quality Assessment)是一种ITU-T标准模型,它使用数字语音分析来客观地确定录制语音信号的质量和可理解性。高信噪比的麦克风在POLQA测试中表现明显更好,并具有更好的语音清晰度。当用高信噪比麦克风记录信号时,同一水平的信号更容易理解。

 

和SNR一样,AOP也是一个重要的音频/视频质量因素。失真很容易使视频记录变得无用。网上有很多在流行音乐/摇滚音乐会上拍摄的智能手机视频,由于音频失真严重,无法观看。如果预期声音(或干扰声音)的传入声压水平高或非常高,则高AOP可以改善声音质量。高AOP帮助麦克风系统处理传入声音信号中可能出现的非常高的信号峰值,即使平均声压水平不是非常高。参见下表中的一些典型用例。

 


直到几年前,消费电子设备麦克风AOP的标准水平还在110到120 dBSPL之间。在最近的过去,AOP的需求已经上升了。为了确保音质和语音识别性能满足客户的要求,设备设计者应该选择AOPs接近或高于130 dBSPL的麦克风。在较低的声压水平下,观察比为AOP指定的10%更低的THD水平更有意义。除了拥有高的AOP之外,THD保持在低水平(低于2%)也很重要,对于预期的应用程序(例如,高达120 dBSPL), THD应该达到足够高的声压级。

 

在系统中,所捕获的声音用于算法时,声音质量目标可能与信号用于人耳时不同。信号并不一定要听起来很自然,只要它是为算法优化的。不管用例是什么,保持信号不受干扰、工件、失真和噪声的影响总是很重要的。

 

自然语音识别(ASR)是将语音信号自动转录成文字的任务。转录正确率越来越接近人类水平,大约为95%。然而,到目前为止,只有在环境条件良好的实验室里才有可能达到这个水平。在现实生活环境和远距离语音识别涉及一些重要的声学挑战,如背景噪声、混响、回声消除和麦克风定位。仅仅有一个好的语音识别引擎是不够的。系统中的每个元素都应该以高标准执行,以防止出现质量瓶颈。麦克风的工作是提供语音识别系统最好的输入信号。 高输入信号质量有助于ASR系统分析传入的声音,并找到其中的特征,从而识别语音内容。关键参数包括噪声、畸变、频率响应和相位。

 

高AOP可以帮助在嘈杂环境中的语音识别系统。有时,语音信号本身并不强,同时存在其他干扰。例如,在语音控制的家庭娱乐系统和数字助理中,有靠近麦克风的扬声器,可以输出响度大的音乐或语音信息。高AOP有助于保持低失真,改善噪声和回声的消除。

 

距离语音源越远,输入到ASR算法的信号的信噪比越低。因此,当目标捕捉距离越长,麦克风信噪比越高。

 

语音识别系统的一个关键功能是能够忽略非待转录语音的声音和噪声。音频/视频捕捉和人与人之间的沟通质量也可以通过从信号中排除不需要的声音来提高。目标是增加信噪比,在这种情况下,信噪比是想要的声音(信号)与不想要的环境声音(噪音)的比率。

 

将多麦克风与算法相结合,可以实现噪声消除和方向性。定向传声器系统,如波束形成,可以集中麦克风对所需方向的灵敏度和突出所需的声源。不需要的声音也可以根据参数取消,如两个麦克风之间的水平差异。盲源分离是一种更为复杂的降噪系统。它可以消除与方向、距离和位置无关的噪声。所有这些噪声消除方法都得益于其接收信号的准确性和高质量。麦克风应具有高信噪比,低失真,平坦频响(也改善了相位响应)和低群延迟。

 

为了优化噪声消除算法的功能,系统中使用的麦克风应该具有相同的特性。麦克风与麦克风匹配的作用至关重要。麦克风之间的灵敏度、相位特性和延迟的差异越小越好。

 

从2005年到2015年,最先进的麦克风在大众市场消费电子设备的信噪比从低于60分贝提高到约65分贝。随着新的高性能语音识别系统和其他捕获用例的需求,即使65 dB也不再足够了。目前高端麦克风的信噪比接近70分贝。


高麦克风性能是实现高语音识别和音频捕获质量的关键。自动语音识别算法和相机等技术的性能正在迅速提高,设备购买者对用户体验的期望也在提高。避免麦克风成为改进瓶颈是很重要的。幸运的是,现在有高性能的麦克风。噪声性能在过去的几年中有了显著的提高。随着AOP达到130 dBSPL的标志,SNR已经超过了70 dB的水平,而质量下降的失真正在成为过去。这种水平的麦克风性能有助于充分提升设备整体表现。

关键字:麦克风  噪声  ASR 引用地址:超高信噪对于MEMS麦克风的重要性

上一篇:优派4K电竞显示器XG320U 惊艳来袭,带你披荆斩棘!
下一篇:TWS耳机通话降噪中的技术

推荐阅读

关于无人配送机器人,目前技术上已经可以做到代替人去做一些工作,比如,餐厅招不到传菜员,机器人可以负责送餐、回收餐具。窝在家里不想下楼?你点的外卖或快递就会有机器人为你送到家门口。在酒店客房需要毛巾和水,机器人可以即时帮你送来。擎朗智能的无人配送机器人已经量产落地,助力酒店实现服务升级。 Peanut花生运输机器人 送餐、收台好助手 ...
电动化车辆电机控制方案第一种是单电机双电压等级,第二种是双(多)电机双电压等级。尽管这样的设计有差别,但其设计出发点都是以能源优化控制优先。单电机是为了更低成本,多电机是为了更高效、更优性能。但这二者低电压都是48V直流/33V交流。高压分别是144V直流/99V交流和520V直流/380V交流。这样做的好处是什么呢?1 低压48V电池组足够安全,可以让车...
这几天在鼓捣stm32的rtc,先焊了一个板子(从stm家园,www.stmsky.com 弄了几块stmsky001pcb板),试了一下rtc显示时间的程序,ok,兴奋呀!第二天便有网友在移植rtt系统说板子上的rtc不能起振,感觉很奇怪,一样的板子怎么可能会出现这种情况,赶忙我又试了一下我的板子,奇怪的是,昨天还好好的,今天也是不行了。不能起振了。找原因吧。于是没有多想,...
广告摘要声明广告近日,中科创达与熵智科技达成战略合作关系,发挥各自优势,共同探索工业视觉相关的解决方案,为客户的智能化升级助力。目前2D视觉经过高速的发展,已经进入平台期。3D视觉正处于走向量产的关键时刻,主力应用正渐次从不可为走向可为。继无序抓取逐渐成熟后,焊接和切坡口也曙光初现。由于具备了深度信息,3D视觉也为工业检测增加了新的可...

史海拾趣

问答坊 | AI 解惑

新手上路  

以后请多观照,谢谢…

查看全部问答∨

哪位高人能帮我设计一个射基跟随器呀?

我需要一个放大电路,它的要求是把我现有的一个0.6V的开关,放大成3.0V的开关,最后是要控制发光二极管亮灭,可以提供12.0V电源,哪位高人可以帮忙设计或有成品电路可以用请提供一下信息啊?…

查看全部问答∨

WM手机如何与单片机加USB_HOST芯片通信

如题 只考虑手机端。 随便问问,没希望得到答案 呵呵…

查看全部问答∨

怎么样在wince中 用win32 API创建一个按钮

如题 在vs2005 中开发智能设备 用WIN32 API 怎么创建一个按钮…

查看全部问答∨

关于STM32L151的几个问题

1. 何处可以得到 STM32L151 的片子; 2. STM32L151 的内部时钟可以支持 USB吗? 3. IAR5.3 +jilink 7 可以支持STM32L151? 谢谢!…

查看全部问答∨

请教:我设置了开机密码但是无法弹出软键盘

我设置了开机密码但是无法弹出软键盘,这样没办法进入系统也没办法关机,请教如何关闭密码或者调出软键盘 是windows CE6.0的 谢谢各位大大了! [ 本帖最后由 qty0 于 2011-7-28 20:21 编辑 ]…

查看全部问答∨

一个简单的DA应用程序

一个简单的DAC程序,输出正弦波。…

查看全部问答∨

自制的高频变压器

自制的高频变压器,勉强做好,通电后有尖叫声,啥原因??在高频变压器自制方面给点意见,感觉很难…

查看全部问答∨

cc2480中文数据应用资料,找了很久,很大家分享下

   这是CC2480芯片的 中文资料,找了很久的  自我感觉还不错…

查看全部问答∨
小广播
最新嵌入式文章
何立民专栏 单片机及嵌入式宝典

北京航空航天大学教授,20余年来致力于单片机与嵌入式系统推广工作。

 
EEWorld订阅号

 
EEWorld服务号

 
汽车开发圈

电子工程世界版权所有 京ICP证060456号 京ICP备10001474号-1 电信业务审批[2006]字第258号函 京公网安备 11010802033920号 Copyright © 2005-2024 EEWORLD.com.cn, Inc. All rights reserved