浅析语音芯片与语音合成芯片的异同
扫描二维码
随时随地手机看文章
语音合成技术是引领信息社会的重要组成部分,是广大生产厂商提升其产品价值的重要手段。让客户更好的使用产品,莫过于直接与机器进行交流。实现机器说话的手段莫过于硬件与软件两大方案,而硬件方案主要包括语音芯片和语音合成芯片两大方案。自2003年北京宇音天下科技有限公司的OSYNO6188国内首款中文语音合成芯片(也称中文TTS芯片)问世以来,市场上的可发声芯片就正式分成两大类:语音芯片与语音合成芯片。但是在现实开发语音终端产品工作中,有很多的研发人员对于这两类芯片的认知,经常出现概念上混淆,常常将语音合成芯片,误认为语音芯片,加之一些制作销售语音芯片的公司,为了更好的销售,以突出语音芯片的比较价格优势,也对外宣称他们的语音IC,是语音合成芯片,有意识地误导开发人员,其实这两者是有本质上是完全不同的。
举例而言,当用户需要最终开发的语音终端,进行大量的不同语音实时提示时--比如检测油量车速等功能的车载仪表,需要对当前的油量,车速进行实时的报告;或者类似GPS导航,提示现在是位于XX街道,当前路面上规定的车速是什么时,也许语音芯片的研制企业宣称没有问题,但对不同省市的不同街道,它就没辙了,这就必须使用语音合成芯片。语音芯片的使用,是在比较固定和较少的语音信息提示时使用的,例如说:这个芯片是用在某路公交车手动报个站,或者说火灾来的时候发出报警声音,这时候使用语音芯片很合适的。这样您就能知道,您到底需要什么类型的芯片了。
接下来可以对它们做比较正式的定义了。所谓语音芯片,是指将语音信号通过采样转化为数字,存储在IC的ROM中,再通过电路将ROM中的数字还原成语音信号。所谓语音合成芯片,又称中文TTS芯片,是指一种专业的语音芯片,它可以通过串行通信接口如UART和SPI等方式,与主控CPU进行数据通信,接收CPU传送的文本信息,并将文本信息,转化成合成语音的方式,驱动发声器发声,其特点是:高集成度,内置中文TTS功能,带串行通信接口以及需要一定的外围电路的支持。
从使用方法来看,语音芯片的主要使用方式是先对其进行录音,录音完成烧录后再来对其使用。而语音合成芯片只需要上位机通过串行通信对其发送一段文本信息,再将文本信息转化为语音信号。从使用上来看,由于语音芯片所记录的提示语音段长度受限,在只需要少量提示语音、并且可以大规模应用的场合下,则适合使用语音芯片,因其成本不高;缺点则是需预录制语音、需重新烧录、需校验,这对于许多研发企业而言,其实是十分烦难的—尤其是当这些研制出的语音终端,卖到不同的用户,就需要使用不同的语音录制文件时,将消耗研发人员大量的宝贵成本。语音合成芯片,则可以灵活的使用上位机提供的文本信息,就可自动的转化为输出声音,从而在智能化人机交互方面产生大量的应用,缺点是智能分析能力不能达到100%的正确语音发声(自然度跟人声相比还是略有差别)且成本较普通的语音芯片略高。
从语音合成芯片的定义上就能知道,它属于一种高端的语音芯片,是一种采取了语音合成技术的、截然不同的智能芯片,它内置了中文TTS软件或语音合成软件核心。从未来的市场发展和用户体验要求上来看,也许将有一天语音合成芯片终将取代语音芯片如今的地位,当然需要很长的时间,或者最终二者合二为一也不一定。现在只能说,未来的语音合成芯片合成效果自然度将更高,成本将更低廉,控制更方便以及面向多语种化。