语音识别道路坎坷,速度、私有云成关键因素
扫描二维码
随时随地手机看文章
语音识别被业内认为是搜索引擎的下一个爆发点,但由于实际应用中的识别准确率还有待完善,语音技术的商业化道路并不好走。
上周成立仅一年多的云知声正式宣布获得一亿人民币A轮融资。云知声联合创始人、CEO梁家恩告诉南都记者,相比传统做2B的语音识别公司,云知声的基因更偏向于互联网,通过免费的公有云语音平台带动私有云服务的定制,还为日后进一步商业化埋下伏笔。
数据虽少胜在执行快速
中科院出身的梁家恩从事过十几年的语音识别研究,而他的创业团队同样有着深厚的技术背景,在语音识别、语义理解等方面的专业积累均超过十年。在他看来,语音交互的需求正变得越来越迫切:随着移动互联网壮大,智能手机、智能电视、可穿戴设备等都需要良好的交互体验,而语音作为最直接的交互方式大有可为;对于用户而言,也更乐于选择简洁、自然的语音交互。“这是行业趋势,智能交互手段日后会成为主流。”梁家恩说。
以目前的技术,语音识别在实验室条件下能达到非常高的准确率,但实际应用中往往遇到环境噪音、方言口音、话题专业性等问题,最终影响用户体验,因此,技术的稳定和成熟程度是语音识别的创业门槛。梁家恩认为,要想把语音识别系统做好,除了有强大的算法以外,还要有大量的数据。他坦言,与行业老大科大讯飞相比,云知声的数据量要少得多,不过,通过建立公有云平台,可以不断积累数据,从而优化系统。
具体而言,公有云平台提供大词汇量连续语音在线识别,开发者不论大小,都可以通过A PI直接调用公有云服务。事实上,云知声的客户里80%以上都是中小企业和个人开发者,这恰好与深耕大客户服务的科大讯飞形成了一种差异和互补。不过,这并不影响大企业对云知声的青睐。梁家恩坦言,包括乐视、锤子RO M,其实一开始找的都是科大讯飞,云知声之所以最终能吸引到他们,除了技术达到一定水准以外,快速的执行力是最大的优势。“以跟搜狗的合作为例,从第一次接触,到搜狗语音助手的发布只花了两周时间,而一般来说要洽谈几个月。”这些大企业本身的用户量很大,一下子给公有云平台带来了大量数据。
发力私有云定制
有了公有云作为基础,云知声进一步探索私有云的路径。
所谓私有云,就是为企业提供定制的智能交互解决方案,包括语音识别、语义理解、语音合成等方面。梁家恩解释,公有云平台提供的只是基础的语音技术服务,而事实上,语音交互跟企业业务的关联性很强,对于那些对语音有刚需的企业来说,公有云并不足以完全满足需求,还要根据企业特有的应用环境优化识别模型。比如云知声与乐视的合作,就是将语音助手根据电视领域进行了深度定制和融合,使得效果更贴合智能电视的实际使用。“真正愿意付费的也只能是这部分刚需用户,云知声的公有云平台是免费的,2B的私有云平台才是主要的营收来源。”梁家恩说。
不过,相比公有云平台积累的上千家开发者,定制私有云服务的只有十来家企业,如何提高私有云的定制业务,从而提高营收呢?梁家恩指出,事实上,把公有云平台做大以后,其用户也会转化成私有云用户,这就是前者免费的原因——— 免费能吸引大量的开发者接入他们的平台,了解并体验语音识别。如果由此为开发者的应用带来用户活跃度的提升以及用户粘性的增强,他们就会认可语音所带来的价值,甚至愿意通过付费获得更好的服务。因此,公有云是品牌宣传,更是培养用户。
在定制领域的选择上,梁家恩表示,目前不会框定自己,手机、电视、车载、智能手表、呼叫中心等各方面都会涉足。“尽量了解不同行业,才会知道哪些市场足够大,不过,我们最后一定会专注于两三个领域,然后做大。”
不与自身平台开发者竞争
只靠技术服务收费未必具备持续性,云知声在盈利模式上还有更长线的规划。
梁家恩预计,公有云平台未来可能会有上万家的开发者,而当用户聚集到足够多的时候,就有可能做后端的变现。他设想,这是一条由广告商、平台和前段开发者构成的链条:单个开发者的A PP用户量也许只有几十到几百万,广告价值不大;而通过云知声平台能聚集上万个开发者、上万个应用,所积累的用户量很大,这就具有了广告价值和推荐价值;从广告主得到的收入,平台和开发者分成。不过,要把这条链条真正打通,梁家恩认为,平台至少要达到上亿的用户,以云知声现在的体量,还有很长的路要走。
此外,梁家恩表示,只专注做平台化发展,不打算发展自己的语音A PP。他认为,如果云知声也做C端推A PP,那么跟开发者多少存在竞争关系,用他们的平台就不踏实。“通过开发者把平台价值做大,让开发者不但能免费用我们的平台,还能分享利益,在中国的互联网环境下,这样的商业模式才走得远。”
云知声通过语音云平台聚集开发者、未来进一步挖掘商业价值,这种想法在互联网时代是正确的“大循环思路”。专注于平台而不是简单赚语音的钱,调动开发者的力量才能打造整个生态系统。
作为技术云平台,一开始就模式清晰、营销有力是好的加分项,但长期来说,还要看技术是否具有竞争力。除了云知声,科大讯飞、思必驰等几个有技术背景的工程公司都已经推出了语音云,给开发者带来了更多选择。市场很大,也都有机会,关键是能否做到比别的平台在识别和理解能力上更有优势。
就语言行业而言,现在的重点已经逐渐转移到能在自然环境下,听懂自然语言的人机对话技术,包括如何在环境嘈杂的车载电视中,在识别率不高的情况下,通过多轮次对话了解用户意图;如何通过对话完成复杂的信息搜索,预订交易等需求,这方面还有很大的发展空间。对于传统的语音公司,特别是原来采取语音识别到文本、文本再去做语义识别的将面临挑战,而云知声等少数几家有平台技术潜力的公司则很有价值。