偏听则明:解析earSmart仿听觉神经降噪技术
发布时间:2013-6-3 15:57
发布者:eechina
常言道:兼听则明,偏信则暗。对于决策依据的选择来说此言不假,但对于语音技术来说则刚好相反。我们所处的环境中常常伴有大量背景噪音,如果一个电子系统把所有的音频信号统统接受,那么我们期望得到的音频信号就会被噪音淹没,系统的性能表现就会大打折扣。 实际上,人耳是一种有选择的接收系统。当我们在嘈杂的餐厅交谈时,我们也能尽力从背景噪音中捡拾对面那个人发出的语音信号。另一些动物具有更强的听觉天赋。猫头鹰可以在丛林中精确侦测出啮齿类动物发出的细微声响。 如果人类或猫头鹰只有一只耳朵,那么我们拾取有用音频信息的能力就会大打折扣。没有了声音定位的能力,我们就会把噪音和信号全部纳入,然后让大脑去分析哪些是噪音,哪些是信号。其结果就是,不但我们的分辨能力大幅降低,而且这样做还大大增加了我们大脑的负担。 大多数电子系统的降噪原理属于后者,也就是从包含噪音的音频中通过DSP算法提取语音信号。这样提取出的语音信号即使可用也会产生不同程度的失真。 Audience公司的降噪技术属于前者。这是一家总部位于美国加州山景城的公司,成立于2000年。该总司号称是全球唯一一家将听觉神经学产品化的公司。在公司成立后的前8年,Audience致力于完善产品技术,所以它真正进入市场的时间并不算长。 Audience公司的earSmart技术是一种仿生学。在声音到达麦克风的那一刻,它就能根据算法判定哪些声音是噪音而加以摒除,从而保证了进入系统的音频信号的纯净度。Audience公司的工程师向我们演示了earSmart的降噪效果。用一台扬声器模拟餐厅背景噪音,然后用装备earSmart技术的Nexus平板电脑进行录音和回放。在关闭该公司ASR Assist专利技术的情形下,所录的语言几乎被背景噪音淹没而无法分辨。开启ASR Assist技术后重新录音,我们听到播放出的语言清晰悦耳,而且几乎没有任何失真。 earSmart技术针对三种情形下的应用:实时通讯(在嘈杂环境下可实现清晰的手机通话)、语音识别(在嘈杂环境下实现对录入语音的文本转换)和媒体捕捉(在嘈杂环境下实现与视频同样清晰的语音录制)。 Audience公司最新产品有两款:eS325高级语音处理器和eS515智能声音处理器。eS325采用真正的三路麦克风、移动去回声和超级宽带噪音抑制语音技术,专利的ASR Assist技术实现优化的自动语音识别,用于多媒体则可实现移动音频变焦和增强型高清立体式录音。两种处理器的框图如下所示。欲了解详情请点击http://audience.com/products/our-processors/。 eS325高级语音处理器 eS515智能声音处理器 目前,Audience公司的earSmart技术主要用于高端应用。据介绍,市场价格高于2000元的多款最新智能手机采用了Audience公司的的产品,如三星Galaxy S4和华为Ascend D2、Mate。另外,Audience与产业生态系统的各方展开积极合作,尤其是与科大讯飞的配合最醒目。在现场演示中,科大讯飞的语音识别软件与Audience公司的earSmart技术相结合,移动产品在嘈杂环境下的语音识别速度与精度的确令人赞叹。 |
网友评论