AI找到了自己的声音
扫描二维码
随时随地手机看文章
人工智能如何发声
基于语音的虚拟个人语音助理(VPA)是当今音频行业的主要驱动力。基于音频系统的传统组件,如音频编解码器、麦克风、扬声器和音频放大器,他们都在使用人工智能来计算和分析语音数据。例如计算支持复杂的音频功能,如语音识别和源定位。它可以在云中执行,也可以在消费设备的边缘处执行。这些分析在云中执行需要很高的处理能力和访问大量数据,。
Yole光电和传感部门的技术和市场分析师Dimitrios Damianos表示:“人工智能的附加价值是用于自然语言处理,声音是与机器互动的一种更自然的方式。你不需要使用键盘和双手,你只需要发声即可。然而,为了理解用户在说什么,他们的语言以及他们的意思需要进行大量的处理。“人工智能正在增加解码的价值,并帮助我们与设备沟通。”
当被问及VPA的快速渗透时,Damianos将其归因于其便捷性和效率。当然,“我们相信和看到的是,像谷歌、苹果、Facebook、亚马逊和微软(统称为GAFAM)这样的大型科技公司试图推动这些VPA,因为它们提取的数据有真正的价值。”
Yole公司MEMS和传感器部门的技术和市场分析师Alexis Debray:对于用户来说,音频比图像更容易被接受。他们认为音频“不那么具有侵入性,所以这是GAFAM从人们那里收集数据的好方法,GAFAM的主要业务就是数据。一些公司利用数据做生意,而另一些公司利用隐私和设置技术来确保用户的隐私。例如,苹果公司就宣扬隐私,并使之成为强大的营销资产。
Damianos说到:对大型科技公司来说,它们的实际价值是尽可能多地从环境中提取信息,这意味着VPA不仅会倾听用户的声音,还会倾听他们周围的环境,并了解他们的环境。例如,“如果你在厨房里,麦克风可以听到刀架在柜台上的声音,立刻就知道你在厨房里,并给出一个菜谱。”这就是情景人工智能。
人工智能对话之后的下一个阶段很可能是完全感知,虚拟助手,无论是智能扬声器还是智能手表,都可以像人类一样与用户交流。Damianos介绍,完全的意识是概念性的,并带有问号。“我们还不知道时间轴,但可能会在人工智能对话之后的5到6年。这将取决于人工智能的发展和该领域公司的发展。
虽然这些一直监听的系统可以在汽车人机界面中挽救生命,但它们也引起了人们对用户隐私保护的担忧。为了防止可能的误用,Debray强调,数据处理应该尽可能快地进行,并尽可能靠近麦克风。“离麦克风越近,隐私泄露的可能性就越小。”
隐私包含多个维度,因为用户可能希望隐藏自己的性别、年龄或情绪。展望未来,Debray表示,他有信心麦克风、ASIC或应用处理器领域的参与者将开发出确保用户隐私的技术。麦克风可以消除声音中的情绪,只呈现音频数据。
Yole分析师预计,GAFAM将继续占据主导地位,因为目前它们对分析的作用至关重要,但传感器制造商显然渴望在边缘加入人工智能,并将音频分析业务从云端分流出去。Damianos:“传感器制造商希望增加他们的收入,并从音频市场中分一杯羹。这不是一场来自大公司一方的战斗。这是传感器公司的一场战斗。”
Alexis Debray:“传感器公司确实在追求多样化的战略,“试图向价值链移动,变得更加一体化。”
在最近的一次采访中,Vesper Technologies Inc.首席执行长Matt Crowley曾表示,Vesper正在寻求提高其压电MEMS麦克风的智能化程度。“我们相信,在未来,我们将在传感器中嵌入一些与人工智能配对的传感器。它将能够学习人类和动物如何使用他们的感官——不仅仅是视觉、听觉、味觉、嗅觉和触觉,还有动作或温度——来了解他们的环境。我们的长期愿景是,这些物体将使用多种仿生传感器来了解它们的环境,并尽可能做出最佳反应。”
此外,英飞凌(Infineon AG)也改变了自己的商业模式,从销售麦克风模类产品转向销售Goertek和AAC等公司的产品,再到销售成套的MEMS麦克风。从一个MEMS麦克风制造商到一个做制造、封装、测试和销售的综合播放器。“这是战略上的变化……这可能意味着,他们看到了VPA的动向,希望在这个市场上找到自己的定位。”
同样,美国楼氏电子Knowles,今天的领导者,拥有MEMS麦克风市场39%的份额,最近从Ams AG收购了MEMS麦克风ASIC设计部门。这是引入混合信号电路设计知识产权的一种方式,同时也是应对来自中国公司如Goertek和AAC日益激烈的竞争的一种方式。