智能音箱产品系统构成及工作中的信息流动
扫描二维码
随时随地手机看文章
(文章来源:润欣科技)
声音本来就是最天然的人机交互方式,但在之前漫长的时间里面,受限于语音识别,人工智能网络宽带等因素,并没有成为主流。但从2017年开始,AI、语音识别、网路应用、移动APP,这几样已经发展成熟,万事俱备,语音智能的应用正好趁着东风迅速发展起来,而且智能音箱表面看似乎只是一款音箱,但实际上有更战略性的作用,也就是说实际上是智能家庭的入口。
借助于物联网技术,智能音箱实际上成为了智能家庭连接互联网的网关,是家庭互联网交互的人机界面,正因为如此,我们可以看到几乎所有的互联网巨头都不遗余力的发展自己的智能音箱产品,因为谁抢占了智能家庭的入口,谁就可以把握先机,在此基础上布置本公司的家电产品生态链。
首先智能音箱区别于传统的AI产品。它不是一个孤立的存在,它们实质是一个互联网的智能终端。
先通过麦克风阵列时刻采集语音,然后对语音进行降噪等加工,然后做关键字识别,例如:homepad Hisiri或者 “天猫精灵”,“小爱同学”之类的关键词,一旦识别关键词之后,就会对后面采集到的语音数据进行压缩编码,通过互联网传到云端,云端的AI服务器具有强大的运算能力,对语音指令进行识别,然后根据指令来做相应的回复。
例如传回语音回复,传回一首歌的流媒体数据,或者传回对家中联网的物联网终端的控制,例如开关空调等动作。智能音箱收到媒体流数据后进行解码驱动,扬声器播放语音回复,收到家电控制指令后通过WIFI,BT来转发到被控制的家电。所以这个工作的数据流还是很清晰的。
在产品架构上面,首先,这是一台嵌入式电脑,因为涉及到降噪等算法,以及流媒体编解码和播放功能,通常有一颗运算能力相当强劲的处理器内核,目前主流的ARM架构是四核或者八核的CORTEX-A7处理器,浮点的运算能力强劲,以及1G以上的ARM空间,外部搭配8G的EMMC或者NANDFLASH等闪存外设,用于存储应用的数据。外围则有两个主要的子系统,一个是语音处理子系统,一个是无线通信子系统。
无线通信子系统,辅助WIFI和BT通信,通过WIFI连接到无线AP和云端,或者在没有公网的情况下和无线局域网中的其他智能家电通过WIFI来交互。WIFI通信的吞吐量大,可以传大流量的流媒体数据是智能音箱的联网基础。蓝牙这一部分通常通过经典蓝牙作为手机和外设交互数据,通过BLEMESH或者传统的BLE一拖多的方式和家庭网关的其他智能设备交互。可以预见未来无限通信部分还可能引入ZIGBEE模式作为网关来连接ZIGBEE灯之类的智能家居产品。
语音子系统,又分为输入和输出两块,输入通常是一个麦克风阵列,用于拾取声音数据,输出通常是IIS/PCM接口的音频CODEC芯片,通过音频功效进行功率放大后驱动一个4欧、8欧尺寸扬声器,当然语音和机械结构高度相关,因此除了电子部分外,音腔的设备,麦克风的位置,阵列结构也是很重要的。
除了内核,无线,语音三个主要板块外,还有一些其他辅助性的外设,比如LED灯,指示和背景灯,8D卡存储,USB接口以及充电和电源管理系统。在声学结构上面,在设计的时候要注意麦克风和扬声器的结构设计。