当前位置:首页 > 消费电子 > 消费电子
[导读]现在的语音识别处理器集成了更多功能,它们的精确度也更高,并有更好的开发工具支持,这使得在消费电子产品中添加语音I/O变得相对容易。

过去,语音识别的应用一直局限于基于PC的系统、电话服务器、高端手机和PDA。但近年来,技术的进步已使得低成本的语音识别处理器在消费电子领域得到应用。

现在的语音识别处理器集成了更多功能,它们的精确度也更高,并有更好的开发工具支持,这使得在消费电子产品中添加语音I/O变得相对容易。在用语音控制家庭环境照明便是一个具有市场潜力的消费应用。

语音识别的类型

语音识别(有时也被称为声音识别或VR)技术可分成三大类:与说话人无关(SI)的识别技术、与说话人相关(SD)的识别技术和语音确认(SV)技术。每种技术都有各自的优点,适用于不同的应用。采用SI技术的产品要求无需对使用者进行培训便可使用的语音指令。

例如,与说话人无关(SI)的识别技术通常最适合用于照明控制器。就像我们用名字来引起他人的注意一样,用一个被称为“触发(trigger)”的SI指令来激活照明控制器也是一个不错的方法。照明控制器被激活后,它可以接受多个指令。

集成了语音识别功能的产品通常需要一种方法,以让使用者知道它们已经听到指令并准备接受下一个指示。也就是说,它们必须让使用者知道该产品已在控制流程之中。由于控制流程十分简单,照明控制器将用一个短音作为应答,这可缩短使用者与控制器的交互时间,而且如果发生误启动也不会导致太大问题。

由于语音是人类的天生交流方式,所以语音识别功能可以增加产品的易用性,此外它还延伸了使用者的物理控制范围。例如,一个语音控制的照明开关即可提供此类价值。或许使用者正坐着看电视,而照明开关不在伸手可及的范围内,或者环境太暗,看不到照明开关,此时借助一个简单的语音指令就能方便地解决这些难题。

点击放大
图1:一个典型的具语音识别功能的电灯控制器将采用本流程图中显示的步骤进行操作。

设计考虑

因为语音识别建立在概率函数的基础上,所以设计者必须在接受指令(包含在识别指令集合中)和拒绝指令(不包含在识别指令集合中)的重要性之间做出折衷。例如,如果该产品必须反应非常灵敏,且偶尔发生误接受(误启动)也不会酿成大问题,则应用开发者可能倾向于接受指令更重要些。而其它一些应用则不允许误启动,如声控烤箱或照明控制器。

背景噪声是语音识别的克星。检测和识别均要求信噪比(SNR)在合理的范围之内(约为3:1或更高)。如果应用条件允许,最好使用定向麦克风或近讲麦克风来降低噪声。

成本也是一个考虑因素。当最终使用者购买产品时,产品价格已经是原始制造成本的4到5倍。幸运的是,目前市场上提供的高集成度语音处理器包含了所必需的麦克风前置放大器、模数转换器(ADC)、数字滤波器、内核处理器、数模转换器(DAC)和数学运算引擎。

这些处理器同样捆绑了从文本输入到与说话人无关(T2SI)的识别及合成技术。这些芯片也可充当各种消费产品功能的主控制器,而且其价位对消费电子产品来说颇具竞争力。这使得产品在增加语音功能的同时,只增加很少成本,或不增加成本。

照明控制器的设计原理

这些优异的性能使VR照明控制器非常具有吸引力,同时还有助于解决该应用中的语音识别挑战。在家庭环境中,远距离识别一个指令意味着要排除人说话、电视、音乐、碗碟碰撞和撞门等背景噪声的影响。此外,这类应用也必须能适应不同性别的成人和孩子。

语音识别输出的信号完整性只跟经过处理的信号一样,因此适当的麦克风电路设计是最基本的。麦克风电路的设计应使得麦克风、偏置电阻和前置放大级的组合电路可以充分利用ADC的输出位数,即尽可能利用ADC的输出位数来达到最佳分辨率,并且不饱和。另外,设计还应考虑到人们轻声或大声说话时的可能功率范围,以及照明控制器可能被使用的距离范围(通常最大约为10英尺)。

最好把照明控制器设置成避免误启动,(在嘈杂的环境中,使用者有时可能不得不重复发出指令),利用Quick T2SI工具的设置可实现这点。保持指令集的规模尽可能小,对尽量减少错误指令带来的误操作十分重要,特别是在嘈杂的环境(如在家中)。为使指令之间的差异最大,T2SI指令在声音和长度方面应尽可能地不同。

最后,照明控制器的逻辑流程必须简单、自然,方便使用。为避免使用者混淆,应尽可能减少从引起照明控制器的注意到进入活跃指令集状态的控制步骤。活跃指令集应一直包含触发字的复本,因而使使用者可以在任何时候重建自己在该流程中的位置。触发字应该很易于地与照明控制功能关联起来,而活跃指令必须是照明控制最常用的。图1对设计将要用到的流程进行了说明。

点击放大
图2:Sensory公司的VR stamp是一个低成本的模块,可通过加入语音识别系统所必需的基本功能和组件来简化设计。

硬件设计

为简化照明控制器的开发,本例中使用了Sensory公司的VR Stamp。VR Stamp是一个包含Sensory RSC-4128微处理器、音频电路分立电容和麦克风前置放大器、3.58MHz晶振、复位电路及用于存储程序代码的128KB闪存的低成本模块。

VR Stamp还带有128KB的串行EEPROM存储器,但在照明控制器应用中没有用到它(见图2)。VR Stamp工具套件包括VR Stamp、集成开发环境(IDE)、Quick T2SI、FluentChip库(具有各种语音识别和合成功能,包括T2SI)、VR Stamp编程板和支持文件。

在这个由语音激活的照明控制器电路中,VR Stamp模块接受使用者发出的语音指令,然后提供控制信号来打/关灯,并通过设置占空比来调节想要的电灯亮度(图3)。

该电路由120V、60Hz的交流线电源供电。变压器(T1)和二极管桥(D1)完成从交流到直流的转换和整流。RSC-4128工作在2.4到3.6V的范围内。稳压器(U1)向VR Stamp模块提供稳定的3.3V电源。3300Ω的电阻(R1)将交流线性电流降低到几个毫安,以使RSC-4128能够检测电压何时出现过零点。

内部二极管的作用是防止芯片因输入电压过高而损坏。两端交流开关元件/三端双向可控硅开关元件对(U2/Q2)在输出端(P2)控制交流线电流。为滤除VDD上的低频纹波,必须使用100µF的电容(C3),因为不稳定的VDD将会耦合到音频电路中,并将降低语音识别的精确度。

用于语音识别输入的麦克风(MK1)和用于声音输出的扬声器(LS1),实现该应用的功能模块。这是一个被来用为电灯供电的经典电路。通过延迟启动,该电路还可以减弱灯的亮度。本设计实现了4个照明开关亮度级别,其中“最亮”和“关灯”分别采用100%和0%的占空比, “中等亮”和“暗”分别采用大约50%和10%的占空比。

在设计带有语音识别功能的PCB时,设计者应该记住两个设计原则:

1.保持模拟电源和模拟地的稳定 应利用稳压器使电源信号和地信号尽可能保持稳定。应合理设计PCB布局和走线,以使所有的模拟电源和模拟地信号与数字地分开。模拟电源和模拟地应分别连接到主电源和主接地上 (对于本应用为稳压器)。这种连接方式通常被称为“星形接地”。把稳压器放在尽可能接近VR Stamp的MIC _ RET引脚的地方,并对所有电源和地信号使用粗的电线和PCB走线。

2. 麦克风连线尽量短,并带屏蔽保护 使PCB上所有模拟走线尽可能短是一种好的设计方法。特别是,从麦克风的正输入端到VR Stamp的主音频信号路径应该尽可能短。高阻抗音频信号的振幅仅为几毫伏的峰峰值。为避免来自数字噪声和电磁干扰(EMI)的天线效应,必须使用屏蔽线缆连接麦克风与该电路。

VR Stamp被设计用来利用廉价的全向驻极体麦克风提供出色的识别性能。本应用中选用了松下公司的WM-64PKT,但也可以使用许多其它制造商和其它型号的产品。虽然驻极体麦克风要求一个外部电源驱动内部FET缓冲器,但被偏置后,它们也可作为电流源使用。此外,偏置电流控制整个麦克风的灵敏度。在这个调光开关中,采用了灵敏度为-44dB的麦克风。如果采用不同灵敏度的麦克风,则应按下面的公式修改麦克风的偏置电阻(R4):

其中Sensitivity是你想要的麦克风灵敏度(在麦克风规格中以-dB为单位),R是麦克风阻抗,RS是对获得给定灵敏度所需的麦克风偏置电阻(R4)。

麦克风的布局也是VR设计成功的关键因素,应记住三个重要的设计原则。

1. 埋入式安装 麦克风元件应放在尽可能接近安装面的地方,而且应充分固定在塑料壳体上。在麦克风元件和塑料壳体之间不能有任何空隙。

2. 无障碍物且孔足够大 为避免影响识别效果,须保证在麦克风元件前面的区域内没有任何障碍物。麦克风前面的外壳的开孔直径至少为5mm。如果必需在麦克风前加上塑料表面,应使之尽可能薄,如果可以的话,最好不超过0.7mm。

3. 隔离 为避免因操作或震动产品而产生的听觉噪声被麦克风“获取”,麦克风与壳体之间应该进行隔音。

点击放大
图3:由语音激活的照明控制电路中的VR stamp模块接收使用者口头指令,提供开/关灯控制信号,并设置灯的亮度。

软件设计

Sensory公司的VR Stamp可以运行利用FluentChip技术固件工具和库所开发的程序。FluentChip程序是利用VR Stamp工具套件所包含的IDE工具所创建和管理的。一个程序包含一个或多个代码模块(可以使用汇编语言或C语言编写)及其它程序资源,包括面向T2SI识别指令集和SX语音提示的目标数据文件。

T2SI触发及指令集是采用Quick T2SI(一个基于Windows的SI识别指令集创建工具)创建的。为使用这个基于图形使用者界面(GUI)的工具,设计者只需把待识别的字或短语键入到文本框中,按下“Build”按钮,一个定制的SI集合就创建好了。注意的是,应把触发字输入到触发字文本框中,把指令输入到指令文本框中。

可以利用PC对这些字和短语进行测试,也可以把它们下载到VR Stamp中进行测试。如果一些字难以识别或易于产生混淆,设计者应调节识别字和短语的发音,并马上重新测试。Quick T2SI工具也可创建可以链接到任何T2SI应用的目标文件。

应把Quick T2SI工具中的“Out of Vocabulary Sensitivity”项设置成“Reject More”或“Reject Most”以减少误启动。应该对T2SI字进行了仔细选择,以便VR能很容易地区分它们,而且这些字对使用者来说是很自然的。例如,“on”和“off”就不应列入T2SI字,因为两者的发音太相似,很易于引起混淆。

如“power”等较长的字是更好的选择。此外,可以把这个单独的字用作开/关灯的开关。而其它的指令词,“dimmer low”、“dimmer medium”、“dimmer high”和“light switch”都足够长,差别很大,不太可能引起混淆。

本站声明: 本文章由作者或相关机构授权发布,目的在于传递更多信息,并不代表本站赞同其观点,本站亦不保证或承诺内容真实性等。需要转载请联系该专栏作者,如若文章内容侵犯您的权益,请及时联系本站删除。
换一批
延伸阅读

9月2日消息,不造车的华为或将催生出更大的独角兽公司,随着阿维塔和赛力斯的入局,华为引望愈发显得引人瞩目。

关键字: 阿维塔 塞力斯 华为

加利福尼亚州圣克拉拉县2024年8月30日 /美通社/ -- 数字化转型技术解决方案公司Trianz今天宣布,该公司与Amazon Web Services (AWS)签订了...

关键字: AWS AN BSP 数字化

伦敦2024年8月29日 /美通社/ -- 英国汽车技术公司SODA.Auto推出其旗舰产品SODA V,这是全球首款涵盖汽车工程师从创意到认证的所有需求的工具,可用于创建软件定义汽车。 SODA V工具的开发耗时1.5...

关键字: 汽车 人工智能 智能驱动 BSP

北京2024年8月28日 /美通社/ -- 越来越多用户希望企业业务能7×24不间断运行,同时企业却面临越来越多业务中断的风险,如企业系统复杂性的增加,频繁的功能更新和发布等。如何确保业务连续性,提升韧性,成...

关键字: 亚马逊 解密 控制平面 BSP

8月30日消息,据媒体报道,腾讯和网易近期正在缩减他们对日本游戏市场的投资。

关键字: 腾讯 编码器 CPU

8月28日消息,今天上午,2024中国国际大数据产业博览会开幕式在贵阳举行,华为董事、质量流程IT总裁陶景文发表了演讲。

关键字: 华为 12nm EDA 半导体

8月28日消息,在2024中国国际大数据产业博览会上,华为常务董事、华为云CEO张平安发表演讲称,数字世界的话语权最终是由生态的繁荣决定的。

关键字: 华为 12nm 手机 卫星通信

要点: 有效应对环境变化,经营业绩稳中有升 落实提质增效举措,毛利润率延续升势 战略布局成效显著,战新业务引领增长 以科技创新为引领,提升企业核心竞争力 坚持高质量发展策略,塑强核心竞争优势...

关键字: 通信 BSP 电信运营商 数字经济

北京2024年8月27日 /美通社/ -- 8月21日,由中央广播电视总台与中国电影电视技术学会联合牵头组建的NVI技术创新联盟在BIRTV2024超高清全产业链发展研讨会上宣布正式成立。 活动现场 NVI技术创新联...

关键字: VI 传输协议 音频 BSP

北京2024年8月27日 /美通社/ -- 在8月23日举办的2024年长三角生态绿色一体化发展示范区联合招商会上,软通动力信息技术(集团)股份有限公司(以下简称"软通动力")与长三角投资(上海)有限...

关键字: BSP 信息技术
关闭
关闭