语音是AI智能时代的重要入口 深声科技意图在语音AI赛道弯道超车
扫描二维码
随时随地手机看文章
自2015年开始,中国人工智能市场规模逐年攀升,2018年中国人工智能市场规模约为238.2亿元,增长率达到56.6%,据预测,到2020年,中国在人工智能的市场规模将接近500亿元。
“语音是AI智能时代的重要入口,”深声科技创始人周俊明说。他的底气来自多年的行业积累和互联网产品开发经验。
2012年,周俊明从中科院计算所博士毕业,顺利进入广电行业龙头企业北京永新视博担任高级算法工程师,主要负责音视频算法工作;2013年,他凭借音视频算法技术能力,被腾讯选中,故任职于此,继续从事在线音视频算法技术研发工作;2016年,他加入了欢聚时代,担任音视频技术总负责人,带领国内顶级音视频团队,为YY提供核心技术服务和技术创新方案。
2018年,周俊明和核心团队成员共同创办了“深声科技”,一家智能语音技术服务商,主要通过基于深度学习的文字转语音整体解决方案服务B端客户,提高客户在行业内的竞争壁垒,帮助客户形成独有的竞争优势。据悉,成立不到半年,深声科技就获得了来自小米科技的数千万元天使轮融资。
AI行业从不缺竞争对手,BAT等头部大企业有强者的打法,初创企业也有自己弯道超车的策略。深声科技在多年的实践摸索发现,以往客户在语音合成中最关心的是信息的传递。但随着物质生活的不断提高,客户对于语音转化真实感的需求也日益剧增,催生了拟人声智能营销、拟人互动、拟人陪伴等大规模商业化应用场景和价值。基于此逻辑,深声科技在商业模式方面主打三大场景:语音内容输出、智能语音交互、智能客服营销。
其中,内容输出业务是深声科技重点推进的主线业务,团队主要通过与有版权IP的企业合作,以有声阅读的方式将深声语音呈现给消费者,内容涵盖文学、动漫、新闻资讯等多种题材和类型。根据深声科技提供的数据显示,深声目前已与十余家行业头部的内容版权企业达成合作,一方面为企业提供文字语言转化工具,按字数收费;另一方面,提供语音合成整体解决方案,共同开发版权IP的语音形式。
在语音交互业务中,团队依托投资方小米的资源及产品,重点服务智能语音音箱和车联网企业,为其提供语音合成、数据制作和人机交互等服务,协助客户在产品开发过程中精准感知用户需求,增强行业竞争优势。
智能客服营销业务是深声科技正在尝试的场景,深声科技主要帮助运营商和金融客户定制声音并合成声音,使其在营销过程中提高通话时长和营销转化率。谈及看好语音交互和智能客服营销这两类客户群体的原因时,周俊明告诉创业邦,这两类客户对于语音音质的要求更高,通过深声科技自身语音合成技术的优势能很快产生规模化效应,且这两类客户群体的长期付费能力更强。
从时间的维度上看,深声科技相比科大讯飞、商汤科技等AI企业入局较晚,但团队正在加紧业务布局,构建自身技术壁垒。首先,基于端到端的语音合成技术逻辑,深声科技会对采集到的原始语音进行自动标注,再由声学模型算法对语言和语音进行音素级特征对齐,可以实现完全拟人发声,将语气、语调、语速、抑扬顿挫等语音特点完美呈现。在Blizzard Challenge 2019 国际语音合成大赛中,该技术在PER(拼音-不包含声调-错误率)和PTER(拼音-包含声调-错误率)两个指标上优于科大讯飞。此外,团队在声音定制合成方面的交付能力突出,三天内便可完成,而行业一般需要3~6个月。
成立不到两年,团队已有50多人规模,其中80%为技术研发人员。团队主要成员拥有中科院、中山大学、华南理工、日本早稻田大学等名校硕博教育背景和腾讯、网易、YY等名企工作经历。联合创始人黄博贤拥有12年的互联网语音和音频技术积累,先后在酷狗和YY主导语音和音频技术的开发。
接下来,团队会重点在效果、性能、数据三个维度优化算法技术,为各行各业提供更多标准化解决方案,加速技术落地,同时完善智能语音交互全链路技术。2020年,团队还将推出面向C端用户的语音克隆产品,在陪伴、亲子互动、泛娱乐等交互场景全面发力。
目前,该项目已启动A轮融资,资金将全部用于团队建设及业务拓展。