科大迅飞和其语音技术及车载导航解决方案
扫描二维码
随时随地手机看文章
所谓语音技术,就是让计算机等智能机器具备“会说能听”能力的技术,其中两项最关键的技术是语音合成TTS(Text to Speech)和语音识别SR(Speech Recognition)。让机器说话,用的是语音合成技术;让机器听懂人说话,用的是语音识别技术。张哲先生表示,语音技术的重要价值在于提高了人机交互的效率,使人与机器的沟通变得如同人与人沟通一样简单。因而语音市场被认为前景极其广阔。这也正是包括Google、Microsoft等国际巨头投入巨资进行基于语音技术及相关产品研究的一个重要原因。专家也预测,未来5年,如果语音技术取得进一步突破,基于此项技术的平台厂商、硬件厂商、软件厂商及设计公司能够形成良好的合作,中国语音产业链市场容量将超过1000亿元。
科大迅飞的语音技术和车载导航解决方案
AirSound4.0是科大迅飞开发的轻量级语音合成软件,尺寸小、资源占用性低、效率高,主要应用于嵌入式领域的语音合成软件模块,适用于不同行业的语音播报和应用需求。
AirSound4.0可配置特性:
资源尺寸可配置
—最小系统尺寸500K
运算效率可配置
—最低可到20MHz的32处理器
极低的内存需求
—Kernel最小仅需32K RAM空间
主要优势:
-支持多种开发平台
-支持所有汉字编码输入
-增强型语音合成功能
-丰富的文本控制标识
-强大的语音调节功能
-支持英文合成及多语种
-支持多种音效处理
-丰富多样的个性化音色
-全面完善的维护工具
-支持快速发音人定制服务
图1 AirSound基本框架
图2 TTS系统框架
其嵌入式语音识别产品AiTalk2.0是高性能的嵌入式非特定人中英文命令词语音识别引擎。
主要功能:
-非特定人识别
-支持中英文识别
-支持动态命令增删
技术特点:
-优秀的平台普适性
-精确文本分析能力
-快速移植能力
-强大领域定制能力
图3 识别系统架构图
车载导航行业解决方案
科大迅飞车载导航解决方案分析了车载导航产品中原有的功能与语音合成技术和语音识别技术的各种可能结合点,总结出相应一些语音功能结合点,设计原则和功能结合点图表简列如下:
设计原则
•在与原有车载导航功能相结合,增加语音功能时,尽量保持车载导航产品上原有的用户界面不变,减少开发工作量。采用附加应用层界面的方式添加语音合成和语音识别功能。
•对原有车载导航产品的硬件设计和模具做尽量少的修改要求,尽量不增加硬件成本。
•所有用户语音应用的内容都可以进行设置,让用户选择是打开还是关闭。
科大迅飞与飞思卡尔强强联手,谋求共赢
从未来语音市场发展角度来看,虽然前景极为广阔,但整个市场目前还处于刚起步阶段,整个产业链上的厂商联手打造良好的生态环境,是整个语音市场获得发展的重要因素也是企业自身发展的关键。从语音技术和产品发展的角度来看,更多地体现以人为本,能带给消费者完美人机交互体验的产品将是未来语音技术和产品设计的趋势。目前科大迅飞正在与各个行业的领先者进行磋商合作,通过建立战略性合作伙伴关系促进各自发展。
科大迅飞所看重的嵌入式语音技术产品中车载导航仪近年增速迅猛,2007年出货量达410万部,比2006年增长了68.2%。而在汽车电子领域,飞思卡尔作为全球性的领导厂商,其领先地位毋庸质疑。作为全球最大的汽车电子MCU的提供商,飞思卡尔拥有业界最完整的从8位S08到高端32位的Power Architecture MCU,涵盖了整车厂商对电子产品的所有需求。飞思卡尔i.MX35系列多媒体处理器的推出,使汽车OEM实现了导航功能和车内无线电的免提控制,将过去由豪华汽车所独享的免提信息娱乐控制功能扩展到所有汽车中。张哲表示,他们十分看重飞思卡尔在整个汽车电子行业的影响力,同时也十分看重飞思卡尔在应用型解决方案上的创新能力。
科大迅飞嵌入式产品部市场总监张哲先生称,飞思卡尔的芯片设计致力于满足终端用户的完美体验需求,并将相应功能在其设计规格里完美体现。如飞思卡尔i.MX35处理器可以让驾驶员在驾驶过程中更安全、更轻松地控制娱乐和导航设备,只需一个简单的语音命令,驾驶员就可以从便携式媒体播放器音乐集中选择歌曲,或随时随地获取方向信息。科大迅飞作为我国最大的中文语音技术提供商,拥有领先的中文语音核心技术和中文语音资源优势。
因此张哲先生认为,科大迅飞与飞思卡尔的强强联手,将产生1+1>2的效益。对于科大迅飞自身而言,将有助于他们开发设计出更具创新型应用的产品,飞思卡尔的资源优势有利于科大迅飞更好地与合作伙伴开展合作,其产品更易为合作伙伴和消费者认可、接受,并使其继续保持市场领先性。对飞思卡尔而言,如果能够在产品设计中将科大迅飞的相关中文语音技术元素考虑进去,可使其提供差异化的产品和解决方案,并有可能为中国市场带来更加智能的车载导航设备。当然这将为终端用户带来更加人性化的产品和更愉悦的使用体验。因此科大迅飞对与飞思卡尔的合作前景充满信心,并认为这种合作将不仅只限于在车载领域,在飞思卡尔同样具有优势的多媒体、自动化领域都将会展开合作。
积极开发创新型应用产品,是下一步发展关键
如何开发出更加符合市场需求、更能满足消费者人机交互体验的创新型语音技术产品,是科大迅飞未来发展所面临的重大挑战之一。张哲表示,科大迅飞目前已形成了两种方式,在外部主要依靠和各行业的合作伙伴密切沟通和合作,在内部则是在研发部门形成了一种机制,即把未来语音技术研发的方向与市场需求紧密结合。目前在实验室进行的两项前瞻性语音合成技术包括情感式语音合成和音色转换。最初的语音合成产品是力求实现语音的自然度和饱和度,而能够带有人类感情色彩的产品将更符合以人为本的需求。音色转换技术则能够提供极具个性化特点的产品。
作为国内一家软件企业,张哲先生也表示了对中国软件企业未来发展的思考,他认为,拥有自主知识产权的核心技术是中国软件企业长久发展的保证,就科大迅飞自身而言,在与国际巨头进行面对面竞争时,中文语音核心技术使其在市场中处于不败的地位。他强调,作为企业自身,应该把更多精力放在提高技术创新上。从外部而言,他希望能够建立更完善的知识产权保护体系,为中国软件企业更好地发展提供良好的外部环境。
关于安徽科大迅飞信息科技股份有限公司
安徽科大迅飞信息科技股份有限公司成立于1999年,是我国最大的中文语音技术提供商,长期致力于智能语音技术研究,在中文语音识别、语音合成、口语评测等多项技术上拥有国际领先的成果。同时也是我国掌握核心技术并拥有自主知识产权的软件企业之一。目前已推出从电信、金融等行业到企业和家庭用户,从PC到手机到MP3/MP4/PMP和玩具,满足不同应用环境的多种语音技术产品。