一种基于语音交互应用的全时AI电视系统设计方案

发布者:TranquilOasis最新更新时间:2024-07-15 来源: elecfans关键字:语音交互  电视系统 手机看文章 扫描二维码
随时随地手机看文章

以人为中心的身体、姿态、动作、表情、语音识别技术的自然人机交互已开始应用于智能电视[1]。声音可最自然和直接地访问信息和交换信息,语音信息输入、识别和实现,可以大大降低用户的通信成本,丰富人机交互[2]。语音识别技术是通过对语音信号特征的提取,使用不同的模式对其进行匹配,最终将语音信号转化成为文本内容或者命令的技术[3]。


语音交互作为最符合人机交互的方式之一,逐步成为电视等智能硬件的“标配”,并使语音搜索成为了主流的AI(artificial intelligence,AI)技术[4]。AI 语音技术在智能电视上应用,需要24 h 全时段支持交互功能,不管是开机状态还是待机状态,都要能够接收和处理语音、实现交互,为人们提供高品质和便捷的交互服务。


本文提出一种基于语音交互应用的全时AI 电视系统设计方案,阐述了系统工作原理及AI 语音交互、AI待机交互、线性阵列麦克风模块和防反射收音管道设计工艺关键技术;系统在开机和AI 待机状态时均可进行AI 语音交互、实现不间断全时语音交互,同时AI 待机时的交互功率低,采用线性阵列麦克风和防反射收音管道设计实现良好的收音效果,系统语音交互的准确性和识别率高。该方案已用于创维全时AI 电视产品,得到了良好应用。


1   系统原理

基于语音交互应用的全时AI 电视系统由全时和分时工作模块组成,框图如图1 所示。全时工作模块包括阵列麦克风、语音DSP、互联网功能、语音处理部分及电源管理模块;分时工作模块包括显示处理、视频处理、音频处理及其他电视处理模块。

1643013587231920.png

图1 系统组成

全时AI 电视系统有三种状态:开机、AI 待机和深度待机。开机时,全时工作模块和分时工作模块处于工作状态,电视可以进行语音交互、音视频播放等;AI待机时,全时工作模块处于工作状态,而分时工作模块处于关闭状态,此时仅语音交互相关的模块处于工作状态,其他模块基本不消耗电能,在保持正常语音交互的情况下实现了低功耗;深度待机时,全时工作模块和分时工作模块都处于关闭状态,此时功耗极低,但无法进行语音交互。

全时AI 电视系统的待机流程如图2 所示。电视在开机状态时,可以进行AI 语音交互、音视频播放等,接收遥控器、按键、语音或手机等设备发出的待机指令,如果此时系统设置为AI 待机且网络连通,将先关闭分时工作模块,然后进入AI 待机状态;否则依次关闭分时和全时工作模块,然后进入深度待机状态。在AI 待机时,可以进行AI 语音交互、响应语音指令,打开分时工作模块的部分功能,进行语音响应播报声音;可以通过语音唤醒电视或传统遥控方式快速唤醒电视,使电视系统不需要重启而迅速进入开机状态;还可设定特定条件(如长时间未进行AI 语音交互时)自动切换至深度待机状态,以节省能耗。在深度待机时,不响应AI语音交互,且必须通过传统的遥控或按键开机指令使系统重启后进入开机状态。

image.png

图2 系统待机实现流程

2   关键技术

1)AI 语音交互技术

AI 语音交互技术原理框图由全时AI 电视系统、网络、服务器系统组成,如图3 所示。其中,全时AI 电视系统包括声音采集、声音提取及增强、人声识别与语音检测等模块;服务器系统包括语音识别、逻辑转换等模块。

1643013762112093.png

图3 AI语音交互原理框图

全时AI 电视系统通过声音采集模块采集声音(包括环境噪声、人声、及电视喇叭声音等),进行降噪等预处理后得到声音信号,然后对声音信号进行回音消除、去混响、声音提取和增强等处理,以及进行人声识别及人声端点语音检测,获取人声语音信息,然后将语音编码、调制后通过网络传送给服务器系统;服务器系统接收语音后,进行语音识别和逻辑处理等,向全时AI 电视系统反馈语音代表的语义等信息;全时AI 电视系统接收到反馈信息后,进行解码处理并生成电视系统的执行指令,控制电视系统的模块工作,完成AI 语音交互。

2)AI 待机交互技术

由系统原理阐述可知,在AI 待机时分时工作模块进入关闭状态。而在AI 待机过程中,为满足良好人机交互需要、同时要兼顾低功率消耗,根据AI 交互不同的指令,在交互时需要合理启动分时工作模块的部分功能进入工作状态。AI 交互指令及处理功能工作状态如图4 所示。

1643013865832528.png

图4 AI待机时指令及处理功能工作状态

AI 待机交互技术设计原理为:①当AI 语音为音频指令时,需合理开启音频处理功能;如语音输入“今天天气怎么样”,电视系统收到服务器系统的反馈信息并生成及执行指令,立即开启音频播放功能进行天气播报;如语音输入“播放音乐”,电视系统收到服务器系统的反馈信息并生成及执行指令,立即开启音乐播放器和音频播放功能播放音乐。②当AI 语音为视频指令时,需合理开启视频和显示处理及音频处理功能;如语音输入“播放中央一套”,电视系统收到服务器系统的反馈信息并生成及执行指令,立即开启视频播放功能和打开电视屏幕显示及开启音频播放功能,进行央视一套节目播放。③当接收到遥控或按键指令时,需合理开启显示或音频处理功能;如指令为待机,需要立即开启显示功能;如为音量加减,则仅开启音频处理的音量调节功能而不开启显示功能。在特定或设定场景下,如果未检测到AI 语音交互或遥控等指令,系统可以由AI 待机状态进入深度待机状态。

3)线性阵列麦克风模块及工艺

麦克风设计是影响全时AI 电视系统语音交互准确性和精度的重要因素之一,系统采用线性阵列麦克风模块及防反射收音管道设计工艺。

线性阵列麦克风示意图如图5 所示, 采用4 个指向MEMS 麦克风排列成线型,各麦克风之间间距D ≥ 3 cm、麦克风拾音孔深度和直径N≤ 4∶1,具有良好的拾音范围和语音定向增强,能够有效消除回音。

image.png

图5 线性阵列麦克风布示意图

防反射收音管道设计示意图如图6 所示,由导音管、密封圈、吸音膜及麦克风组成。防反射收音管道的导音管开孔大于麦克风收音孔20% 以上、保证收音范围较广;密封圈采用硅胶材质,与导音管下表面精密配合,为防止声音反射,采用吸音膜来吸收未进入麦克风收音孔的声音,吸音膜吸收音频频率范围大于人声的频率范围,即大于20 Hz ~ 20 kHz,确保每个频段的声音都能很好衰减;防反射收音管道能够有效防止声音反射问题,同时确保收音范围广,获取高质量音频。

image.png

图6 防反射收音管道设计示意图

3   系统应用

全时AI 电视系统设计方案已经在多个电视产品中应用,涵盖43 ~ 86 英寸(注:1 英寸=2.54 cm),包括创维电视Q40、Q51、S81、S9A 等产品系列。产品内置线性阵列麦克风,支持良好的全时AI 语音交互体验,市场销售规模超过百万台。

以65 英寸电视产品为例,AI 待机时功率约16 W,从AI 待机状态进入开机状态的时间约2 s,支持远距离语音交互:3 m 内唤醒率99%、识别率95%,8 m 唤醒率95%、识别率93%。

4   结束语

文章提出一种基于语音交互应用的全时AI 电视系统设计方案,阐述了系统工作原理及AI 语音交互、AI待机交互、线性阵列麦克风模块和防反射收音管道设计工艺关键技术;系统在开机和AI 待机状态时均可进行AI 语音交互,并实现不间断全时语音交互;同时AI 待机时的语音交互功率低,并采用线性阵列麦克风和防反射收音管道设计实现良好的收音效果,系统语音交互的准确性和识别率高。该方案已应用于创维全时AI 电视产品,效果良好,产生了良好经济社会效益。


参考文献:

[1]任飞.智能电视软件平台关键技术研究[D].成都:电子科技大学,2013.

[2]汪文弈.智能电视语音交互系统的研究与设计[D].成都:电子科技大学,2017.

[3]王景山.基于语音交互的电视节目点播系统[D].兰州:兰州大学,2016.

[4]章金水.AI客厅语音入口探索与实践[J].数字通信世界,2020,44(3):24-26.


关键字:语音交互  电视系统 引用地址:一种基于语音交互应用的全时AI电视系统设计方案

上一篇:液晶电视机EMI的设计
下一篇:多场景8K视频实时传输方法及系统

推荐阅读最新更新时间:2024-11-04 12:24

从“听清”到“听懂”,远传为智能语音交互技术注入新动能
2016年,在深度神经网络的帮助下,机器语音识别准确率第一次达到人类水平,意味着智能语音技术落地期到来。继而随着人工智能行业的快速发展,短短几年内,国内智能语音技术突飞猛进,整个行业市场正经历着高速的发展,越来越多的企业争相入局,智能语音真正成为风口。但是智能语音的发展是个开放性的课题,背后涉及的技术仍有不足,亟待我们的求索突破。 “停”不下来的智能机器人 就拿智能语音机器人来说,用户经常会诟病“不够智能”,尤其是不能很好地支持打断、插话,或是反应慢、自说自话等问题。目前市场上大多数语音机器人采用一问一答的交互方式,先是照本宣科 TTS 播报内容,播报完成后,再去询问和倾听客户的意见,语音识别转译后再跳转对应的对话场景流程。
[机器人]
智能语音交互技术如何助力设备实现人机自然对话
智能语音交互技术是指通过语音识别、语音合成和自然语言理解等技术,实现人与机器之间自然语言的交流和互动。随着现代人工智能在各行业的普及,智能语音交互技术也越来越多的在日常工作、生活中应用,智能语音交互的出现不仅仅大量节省了人工的工作时间提高了工作效率,为人们工作生活带来便利的同时,也改变着人类学习、生活、娱乐、工作和出行的方式。 在众多的智能语音交互使用场景中,人机自然对话是智能语音交互技术最为普遍的场景之一。智能语音交互技术首先将人的语音信号转化为机器能够理解和处理的文本信息,然后通过深度学习和自然语言处理技术识别出人类的意图和情感,并根据对话模型输出对应的文本信息,再将由机器生成的文本信息转化为自然流畅的语音音频进行播报,从
[嵌入式]
R&S 用于数字电视网络的紧凑型监测系统 DVMS1
罗德与施瓦茨公司(Rohde & Schwarz)最新推出了一款用于数字电视网络的紧凑型监测系统R&S DVMS1。R&S DVMS1可以同时监测MPEG传输流和射频信号,非常适合对安装于不同发射地点的发射机进行全面监控。由于R&S DVMS1可以测到高达38dB的调制误差率(MER),使其在和同类型产品的竞争中具有明显优势:网络运营商甚至可以检测出高质量信号中存在的损伤,从而可以对潜在的故障进行及时、有效的预防。此外,R&S DVMS1还具有极高的性价比。 为了尽早地对出现的信号故障作出反应,网络运营商必须能够快速找出问题所在。R&S DVMS1即可以凭借其丰富的功能实现该目标。由发射机监测口输出的信号直接
[家用电子]
基于PCI总线的电视图像处理仿真系统
引言 随着电视图像处理系统性能的提高,设计人员需要不断采纳新的数字图像处理算法,如何对这些新算法进行评估,如何将理论设计转化成工程应用成为设计人员关心的首要问题。 实现电视图像信号处理需要设计一套复杂的电路系统,且硬件电路的设计应综合考虑高速DSP芯片的开发、超大规模集成电路设计、视频转换、接口等复杂电路。设计印刷电路板和调试将占用设计人员较多的工作时间,较长的研制周期和较高的研制经费均不利于图像处理新思路、新算法向工程应用的转化。仿真系统能较大程度降低硬件电路设计的复杂性,缩短研制周期,有利于科研设计人员集中精力对新算法进行评估和测试。 能否实时采集和实时处理电视图像信号是设计仿真系统的关键问题。鉴于微型计算机运算速
[嵌入式]
基于UCC28060交错并联控制器的液晶电视电源系统
摘 要:本文设计了功率为 1KW 的液晶电视电源系统,采用UCC28060 控制芯片实现交错并联功率因数校正,UCC28060 以其独特的控制方法和保护特性,提高了系统的可靠性,并可以节约成本,降低了能耗,以更小型化和轻薄化实现更高的性能。介绍了UCC28060 的特点、功能、工作原理及电源系统参数设计;系统加入市电判断功能,对整个系统进行过欠压保护;同时包含辅助电源部分,给控制芯片提供稳定电压,简捷实用。   关键词:UCC28060,交错并联,PFC,电源,市电判断,辅助电源   1.引言   UCC28060 是德州仪器(TI)推出的双相交错切换模式(Transition Mode, TM)功率因数校正控制器,应
[电源管理]
基于UCC28060交错并联控制器的液晶<font color='red'>电视</font>电源<font color='red'>系统</font>
智能耳机市场异军突起,这是语音交互新风口?
根据GFK中国最新调研数据显示,2017年中国蓝牙耳机市场零售销量达到1363万台,占整个耳机市场的56%。与此同时, 智能耳机 市场异军突起,今年的零售市场规模将达到50万台,或将成为语音交互的新风口。     相比于传统蓝牙耳机,智能耳机所强调的语音交互式体验是前者不具备的,同时也能带来更多样的应用场景和扩展性。自从苹果于2016年9月推出真无线智能耳机AirPods后,整个耳机市场的风向都被苹果所改变,智能耳机也迎来了高速发展。   在国内耳机市场,智能耳机在2017年也迎来了高速发展,出门问问、咪咕、科大讯飞、TOPPERS等众多国产厂商纷纷入局智能耳机领域,并带来多款新品。耳机作为当前使用量最大和使用时间最长的外设产品
[嵌入式]
东芝将上市配备新影像处理系统液晶电视
  东芝2011年3月2日发布了首次配备新开发的影像处理系统“REGZA Engine CEVO”的液晶电视“REGZA Z2系列”。CEVO将高端电视“CELL REGZA”利用通用处理器“Cell Broadband Engine”和软件实现的高功能画质处理交由硬件处理,组合使用了所需的软件。该公司曾在德国举办的展会“IFA2010”和在美国举办的展会“2011 International CES”上表明过开发CEVO的意向(参阅本站报道1,本站报道2)。通过使CELL REGZA基于软件的处理实现硬件化,部分功能超过了CELL REGZA。   东芝共准备了47英寸的“47Z2”(估计销售价格为32万日元左右)、42英寸的“4
[家用电子]
意法半导体推出集成3D图形加速器的电视系统级芯片
意法半导体(纽约证券交易所代码:STM),发布一款全新集成3D图形加速器(符合OpenGL-ES 2.0和OpenVG 1.1标准)的电视系统级(SoC)芯片,可实现下一代网络电视服务以及激动人心的用户界面和休闲游戏。 意法半导体的全新FLI7540属于‘Freeman Ultra’系列产品,专为以出色视频、音频以及用户界面为诉求的高性能电视研制。FLI7540 不仅具有出色的处理性能(内置256KB二级高速缓存的1700+ DMIPS CPU),还提供专为先进中间件/网络电视应用设计的安全加密功能,并兼容全球数字地面电视(DTT)标准。 与此同时,意法半导体还推出一款全新高质量的 Faroudja™视
[家用电子]
意法半导体推出集成3D图形加速器的<font color='red'>电视</font><font color='red'>系统</font>级芯片
小广播
最新嵌入式文章
何立民专栏 单片机及嵌入式宝典

北京航空航天大学教授,20余年来致力于单片机与嵌入式系统推广工作。

 
EEWorld订阅号

 
EEWorld服务号

 
汽车开发圈

电子工程世界版权所有 京ICP证060456号 京ICP备10001474号-1 电信业务审批[2006]字第258号函 京公网安备 11010802033920号 Copyright © 2005-2024 EEWORLD.com.cn, Inc. All rights reserved