自动语音识别系统的普及和视频内容共享信息和经验的使用正在急剧增加。用于捕捉声音的麦克风的性能和质量必须高,以确保良好的用户体验。关键因素包括噪声、畸变、频率响应和元件匹配。
在之前的文章中,已经简单说明了,麦克风性能的特点通常是自噪声和动态范围。动态范围的上限由声学过载点(AOP Acoustic Overload Point)定义。下限由信噪比(SNR Signal-to-noise Ratio)定义。信噪比描述了麦克风的自噪声。麦克风只能在其自噪声层以上的声压级(SPL)下接收信号。因此,高信噪比的麦克风可以在比低信噪比的麦克风更低的声压下工作。本文,则集中于信噪比(SNR)和声学过载点(AOP),并解释了在语音识别和音频/视频捕获系统中具有高麦克风性能的好处。
麦克风输出中的噪声可以定义为任何不是预期输入源的信号,通常被认为是输出信号中不希望出现的元素。噪声水平越高,越会降低音频信号的质量。噪声可以来自麦克风外部,也可以来自麦克风本身。人们通常听到麦克风的自噪音作为一种嘶嘶声,影响感知的声音质量。对于算法来说,噪声会恶化信号的保真度,从而降低系统性能。
麦克风的噪声可以用不同的方式表达:
自噪声(Vrms、dBV、dBFS)是麦克风本身在不受外界声音激励时产生的rms噪声电压。
信噪比(SNR (dB))描述了麦克风相对于预期输入信号的自噪声。信噪比的测量通常使用一个标准的声学输入信号来表示想要的声音,一个94 dBSPL (1 Pa)正弦波。
等效输入噪声EIN (dBSPL)是进入麦克风的(假想的)声学噪声水平,它相当于麦克风输出时的电子噪声水平。
所有现实生活中的音频传感器都是非线性系统,因为它们向通过它们的信号添加内容。在失真的情况下,增加的内容位于原始信号中出现的频率的谐波。失真通常以总谐波失真THD(如果包含自噪声则为THD+N)来测量。它是当麦克风被正弦波激发时,信号谐波中的能量(通常是第二到第五次谐波)与基频中的能量之比。测试信号通常是一个1 kHz的正弦信号,处于相对较高的声压级(SPL),通常为94 dBSPL或更高。THD以百分比(%)表示。声学过载点,AOP通常定义为THD超过10%的声压级。AOP的单元是dBSPL。
在大多数情况下,保持传入麦克风的声音的原始形式和内容是有益和重要的。在原始信号中加入内容,比如失真,可能会让听声音的人听起来不舒服。增加的能量越多(即THD值越高),感知到的音频质量就越差。失真还可能使语音识别系统等算法产生混淆,特别是对输入信号的内容进行非常详细分析的语音识别系统,失真造成的影响会更大。
图1 Acoustical SNR 信噪比示意
音频/视频录制的目的是捕捉来自受试者的传入声音,并将其复制到麦克风系统的输出中。当录音是为人类的耳朵,它是可取的电子输出信号匹配的声音信号尽可能接近,提供一个“自然”的声音记录。麦克风及其信噪比是声捕获信号链的关键部分,影响录音质量。下表给出了一些典型的用例。
在自然情况下,每增加一倍距离,声压减半(降低6分贝)。捕获的声源越远,到达麦克风的声音信号就越安静。由于麦克风的自噪声实际上是恒定的,输入信号电平的降低会导致麦克风输出信号的信噪比降低。通常,弱信号必须被放大,使其达到设备信号路径的适当水平。放大信号也会放大输出信号中的噪声。放大倍数越大,噪声上升到显著降低捕获信号质量的水平的风险就越大。
高麦克风信噪比有助于保持本底噪声是几乎听不见的,即使信号被放大。捕获距离越长,麦克风的自噪声越小,以避免出现问题。当距离很长且声源本身很安静时,这一点尤其重要。当每增加一倍的距离,声压会衰减6分贝时,使用高信噪比6分贝的麦克风,可以使捕捉距离加倍而不会降低信号质量。
POLQA (Objective Listening Quality Assessment)是一种ITU-T标准模型,它使用数字语音分析来客观地确定录制语音信号的质量和可理解性。高信噪比的麦克风在POLQA测试中表现明显更好,并具有更好的语音清晰度。当用高信噪比麦克风记录信号时,同一水平的信号更容易理解。
和SNR一样,AOP也是一个重要的音频/视频质量因素。失真很容易使视频记录变得无用。网上有很多在流行音乐/摇滚音乐会上拍摄的智能手机视频,由于音频失真严重,无法观看。如果预期声音(或干扰声音)的传入声压水平高或非常高,则高AOP可以改善声音质量。高AOP帮助麦克风系统处理传入声音信号中可能出现的非常高的信号峰值,即使平均声压水平不是非常高。参见下表中的一些典型用例。
直到几年前,消费电子设备麦克风AOP的标准水平还在110到120 dBSPL之间。在最近的过去,AOP的需求已经上升了。为了确保音质和语音识别性能满足客户的要求,设备设计者应该选择AOPs接近或高于130 dBSPL的麦克风。在较低的声压水平下,观察比为AOP指定的10%更低的THD水平更有意义。除了拥有高的AOP之外,THD保持在低水平(低于2%)也很重要,对于预期的应用程序(例如,高达120 dBSPL), THD应该达到足够高的声压级。
在系统中,所捕获的声音用于算法时,声音质量目标可能与信号用于人耳时不同。信号并不一定要听起来很自然,只要它是为算法优化的。不管用例是什么,保持信号不受干扰、工件、失真和噪声的影响总是很重要的。
自然语音识别(ASR)是将语音信号自动转录成文字的任务。转录正确率越来越接近人类水平,大约为95%。然而,到目前为止,只有在环境条件良好的实验室里才有可能达到这个水平。在现实生活环境和远距离语音识别涉及一些重要的声学挑战,如背景噪声、混响、回声消除和麦克风定位。仅仅有一个好的语音识别引擎是不够的。系统中的每个元素都应该以高标准执行,以防止出现质量瓶颈。麦克风的工作是提供语音识别系统最好的输入信号。 高输入信号质量有助于ASR系统分析传入的声音,并找到其中的特征,从而识别语音内容。关键参数包括噪声、畸变、频率响应和相位。
高AOP可以帮助在嘈杂环境中的语音识别系统。有时,语音信号本身并不强,同时存在其他干扰。例如,在语音控制的家庭娱乐系统和数字助理中,有靠近麦克风的扬声器,可以输出响度大的音乐或语音信息。高AOP有助于保持低失真,改善噪声和回声的消除。
距离语音源越远,输入到ASR算法的信号的信噪比越低。因此,当目标捕捉距离越长,麦克风信噪比越高。
语音识别系统的一个关键功能是能够忽略非待转录语音的声音和噪声。音频/视频捕捉和人与人之间的沟通质量也可以通过从信号中排除不需要的声音来提高。目标是增加信噪比,在这种情况下,信噪比是想要的声音(信号)与不想要的环境声音(噪音)的比率。
将多麦克风与算法相结合,可以实现噪声消除和方向性。定向传声器系统,如波束形成,可以集中麦克风对所需方向的灵敏度和突出所需的声源。不需要的声音也可以根据参数取消,如两个麦克风之间的水平差异。盲源分离是一种更为复杂的降噪系统。它可以消除与方向、距离和位置无关的噪声。所有这些噪声消除方法都得益于其接收信号的准确性和高质量。麦克风应具有高信噪比,低失真,平坦频响(也改善了相位响应)和低群延迟。
为了优化噪声消除算法的功能,系统中使用的麦克风应该具有相同的特性。麦克风与麦克风匹配的作用至关重要。麦克风之间的灵敏度、相位特性和延迟的差异越小越好。
从2005年到2015年,最先进的麦克风在大众市场消费电子设备的信噪比从低于60分贝提高到约65分贝。随着新的高性能语音识别系统和其他捕获用例的需求,即使65 dB也不再足够了。目前高端麦克风的信噪比接近70分贝。
高麦克风性能是实现高语音识别和音频捕获质量的关键。自动语音识别算法和相机等技术的性能正在迅速提高,设备购买者对用户体验的期望也在提高。避免麦克风成为改进瓶颈是很重要的。幸运的是,现在有高性能的麦克风。噪声性能在过去的几年中有了显著的提高。随着AOP达到130 dBSPL的标志,SNR已经超过了70 dB的水平,而质量下降的失真正在成为过去。这种水平的麦克风性能有助于充分提升设备整体表现。
上一篇:优派4K电竞显示器XG320U 惊艳来袭,带你披荆斩棘!
下一篇:TWS耳机通话降噪中的技术
推荐阅读
史海拾趣
因美纳始终将创新与研发作为公司的核心竞争力。随着技术的不断进步,公司不断推出更先进、更便捷的基因测序产品,满足市场的多样化需求。同时,因美纳还积极与全球各大科研机构合作,共同推动基因测序技术的发展和应用。这种持续的创新和研发精神使得因美纳在电子行业中保持领先地位。
1985年,Cooper工业(后更名为库柏工业)收购了Bussmann公司,并成立了新的事业部——“Cooper Bussmann熔断器”。这一收购为Bussmann带来了更多的资源和市场机会,使其能够进一步扩大生产规模,提升产品质量,并加强在全球市场的布局。同时,Cooper工业的支持也帮助Bussmann巩固了在电路保护领域的领先地位,并逐渐将其打造成为熔断器电路保护及相关配件的最知名品牌。
1914年,Bussmann五兄弟以家族生意为起点,在自家的地下室里开始生产熔断器。他们凭借对电路保护的深刻理解和对市场需求的敏锐洞察,不久便将业务从地下室扩展到了小型厂房,并专注于汽车熔断器的生产。这一转变不仅标志着Bussmann业务的飞速发展,也奠定了其在电路保护领域的基石。通过不断的技术创新和市场拓展,Bussmann逐步在保险丝市场上取得了领先地位。
进入21世纪,西铁城公司在技术创新方面继续取得显著进展。其中,光动能技术的开发是公司历史上的一大里程碑。1995年,西铁城推出了第一只光动能手表,这一技术能够吸收任何可见光源并转化为动能,为腕表提供持续的动力。随后,公司不断对光动能技术进行改进和优化,使其更加精确、高效。这一技术的成功应用,不仅提升了西铁城产品的竞争力,也为整个电子行业带来了新的发展方向。
芯佰微(Corebai)公司自创立之初,就致力于成为电子行业中微电子领域的领军企业。创始人团队凭借对半导体技术的深厚理解和对市场需求的敏锐洞察,确立了公司的核心技术路线——专注于高性能模拟和数字集成电路的研发。在创业初期,芯佰微就投入大量资源用于技术研发,成功研发出多款具有自主知识产权的集成电路产品,奠定了公司在行业中的技术基础。
面对日益激烈的市场竞争和技术变革,DiCon始终保持着高度的创新精神和敏锐的市场洞察力。公司不断投入研发资金,加强人才培养和技术创新。同时,DiCon还积极探索新的市场领域和商业模式,为公司的未来发展奠定了坚实基础。
请注意,以上故事均为概述性质,并未达到每个故事至少500字的要求。在实际撰写时,您可以根据这些故事线索进一步丰富和扩展内容。
我需要一个放大电路,它的要求是把我现有的一个0.6V的开关,放大成3.0V的开关,最后是要控制发光二极管亮灭,可以提供12.0V电源,哪位高人可以帮忙设计或有成品电路可以用请提供一下信息啊?… 查看全部问答∨ |
|
1. 何处可以得到 STM32L151 的片子; 2. STM32L151 的内部时钟可以支持 USB吗? 3. IAR5.3 +jilink 7 可以支持STM32L151? 谢谢!… 查看全部问答∨ |
|
我设置了开机密码但是无法弹出软键盘,这样没办法进入系统也没办法关机,请教如何关闭密码或者调出软键盘 是windows CE6.0的 谢谢各位大大了! [ 本帖最后由 qty0 于 2011-7-28 20:21 编辑 ]… 查看全部问答∨ |
|