当前位置:首页 > 消费电子 > 音频技术
[导读]   11月22日,百度语音开放平台三周年主题活动在北京召开,本次大会百度公开宣布开放四大语音技术——情感合成、远场方案、唤醒二期、长语音方案,为开发者提供免费接入入口。百

  11月22日,百度语音开放平台三周年主题活动在北京召开,本次大会百度公开宣布开放四大语音技术——情感合成、远场方案、唤醒二期、长语音方案,为开发者提供免费接入入口。百度首席科学家吴恩达在主题演讲中表示,“语音是人类交流、人机交互最自然的方式,通过开放语音技术,百度希望可以推动语音功能产品繁荣的浪潮。”

  (百度公司首席科学家吴恩达进行现场演讲)

  在演讲中吴恩达详细解读了百度人工智能核心成果“百度大脑”及其核心组成部分,包括语音、图像、自然语言处理、用户画像、机器学习五大重要组成部分。在百度语音开放平台三周年之际,吴恩达还向外界公开介绍百度语音技术最新数据情况:注册开发者数量达到14亿,在线识别请求量2016年每天达到1.4亿次,在线语音合成请求量则达到2亿次,再次证明了语音开放平台开放给开发者带来的实用价值。

  此外,吴恩达还对人工智能的未来充满信心,他认为,人工智能的未来会体现在方方面面,例如陪伴机器人,个性化私教,音乐作曲,机器人医生等。

  以下是吴恩达演讲实录:

  大家好,非常高兴大家今天来参加我们的语音开放平台三周年发布会。

  我是“百度大脑”的项目负责人吴恩达,在百度大脑的项目中有一部分非常重要的工作,就是把最领先的技术输出给大家使用。在百度大脑开放平台(ai.baidu.com)上,我们不仅输出人工智能技术,也有很多有关人工智能技术的培训资料。

  那么,百度大脑到底是什么呢?它最核心的几个技术部分为:语音、图像、自然语言处理、用户画像、机器学习平台。我发现很多人使用百度的语音技术有两大原因,第一个原因,百度有非常领先的技术为他们的用户提供更好的体验;第二个原因,我个人做了好几十年有关人工智能的项目,发现通常你刚开始做一个项目的时候,只是需要语音技术,当做了几个月以后,你发现还需要图像技术或者自然语言处理技术等等。如果你是使用百度大脑开放平台,你可以比较容易的选择真正需要的技术部分把它放进来,把它融合,为你做到最好的效果。再比如说你想服务一个智能客户,开始的时候觉得只需要语音识别、语音合成技术,但是做了几个月以后,发现你需要最领先的自然语言处理技术。如果你是使用百度大脑开放平台,希望你比较容易拿到这些技术放到自己的产品中。

  我个人对人工智能的未来充满信心,我希望未来我们会有陪伴机器人、个性化私教、音乐作曲、机器人医生等等。这些年人工智能技术发展的非常快,这给我们,也给你们带来很多新的机会,在百度是没有办法探索这么多非常有潜力的机会,所以我们的目标就是把我们的人工智能技术输出给大家,希望可以支持你们在非常有潜力的项目上探索,而且支持你们在这些项目中获得非常好的结果。

  今天大会的主题就是语音技术。大家可能已经知道,在很多最重要的百度产品中,我们已经支持语音输入,包括手机百度、百度地图、百度输入法。如果你还没有试过百度输入法,我希望你试一试,我输入信息时就挺喜欢用百度输入法。还有度秘,最近我们把度秘放入各类硬件中,比如小度机器人。度秘系统可以为客户点餐,把度秘和机器人融合,也可以让各种用户有新的体验。

  这几年来,我们的团队在不断地优化语音识别系统,在2012年开始使用DNN模型,后来有比较好的特征,之后开始用Sequence DiscriminaTIve Training,也开始使用LSTM模型,加上CTC,今年我们的团队开发了Deep CNN模型,效果在不断进步,这就是我们的语音识别系统。

  此外,我们的语音合成模型也变得越来越好,这几年来我们在好几个技术方面有比较大的突破,我们的语音合成效果也变得越来越好。现在百度在中国语音合成的能力是远远超过其他公司的,今天下午我们的语音团队负责人也会和大家分享更多细节。

  因为我们的语音技术、自然语言处理技术、我们的人机交互技术进步的这么快,2016年MIT科技评论我们的技术是2016年十大突破性技术之一,我们觉得这些技术有很大的潜力,可以改变人机交互的效率和办法。

  未来语音技术在很多应用场景有很好的机会,为人机交互带来巨大的改变。举个例子,在智能家居的场景,我们希望未来你回家以后可以使用语音跟你的电视、遥控器、音箱、窗帘讲话,比如说希望你未来可以向你的电灯说,“电灯请打开”,它就明白你的命令,或者对遥控器说话,它就能非常方便的满足你的需求。其实智能家居只是一个应用场景,我觉得在很多应用场景中,语音技术都可以带来人机交互非常大的改变,这包括手机、音箱、电视等等。希望语音能让你做更好的智能客服中心。在汽车领域语音也是一个非常重要的人机交互的场景,我们有很多合作伙伴正在使用我们的语音技术探索这些应用场景。

  最后,今天我们已经知道,尤其是在手机端,我们知道语音输入比键盘打字更快、更方便、更准确。下一位进行演讲的是我的好朋友,也是斯坦福大学James Landay教授,他也会为大家分享有关这方面的研究,就是使用百度的语音识别系统,如果你使用这个系统,在手机端输入就可以更快、更方便、更自然。

  语音输入这么方便,希望未来语音输入会变得更普及。大家想一想,如果你跟我想交流,最自然的办法就是你跟我讲一句话,或者我跟你讲一句话,所以人和人交流最自然的办法还是语音。这几年来,语音和自然语言处理和度秘这种技术进步这么快,今天很多场景,人机交互最自然的办法已经是语音。人机交互不只是你跟电脑或者和设备讲话,你的电脑和设备也需要告诉你它的意见,所以我们的语音技术也可以让这些设备非常自然的告诉你它的意见。

  最后,因为人工智能,尤其是语音技术这几年发展的很快。在百度大脑已经有好几种不同的人工智能技术,其中比较成熟的,就是我们的语音技术。所以语音技术已经给我们,也给大家,也给你们,给你的公司,给开发者很多新的机会。所以,我希望我们输出语音技术,希望它可以为大家提供非常好的服务,也希望我们可以使用我们的技术支持你们探索这些新机会,希望你们可以使用这些技术,支持你们在这些新机会中获得非常好的成果。

  谢谢大家!

本站声明: 本文章由作者或相关机构授权发布,目的在于传递更多信息,并不代表本站赞同其观点,本站亦不保证或承诺内容真实性等。需要转载请联系该专栏作者,如若文章内容侵犯您的权益,请及时联系本站删除。
换一批
延伸阅读

9月2日消息,不造车的华为或将催生出更大的独角兽公司,随着阿维塔和赛力斯的入局,华为引望愈发显得引人瞩目。

关键字: 阿维塔 塞力斯 华为

加利福尼亚州圣克拉拉县2024年8月30日 /美通社/ -- 数字化转型技术解决方案公司Trianz今天宣布,该公司与Amazon Web Services (AWS)签订了...

关键字: AWS AN BSP 数字化

伦敦2024年8月29日 /美通社/ -- 英国汽车技术公司SODA.Auto推出其旗舰产品SODA V,这是全球首款涵盖汽车工程师从创意到认证的所有需求的工具,可用于创建软件定义汽车。 SODA V工具的开发耗时1.5...

关键字: 汽车 人工智能 智能驱动 BSP

北京2024年8月28日 /美通社/ -- 越来越多用户希望企业业务能7×24不间断运行,同时企业却面临越来越多业务中断的风险,如企业系统复杂性的增加,频繁的功能更新和发布等。如何确保业务连续性,提升韧性,成...

关键字: 亚马逊 解密 控制平面 BSP

8月30日消息,据媒体报道,腾讯和网易近期正在缩减他们对日本游戏市场的投资。

关键字: 腾讯 编码器 CPU

8月28日消息,今天上午,2024中国国际大数据产业博览会开幕式在贵阳举行,华为董事、质量流程IT总裁陶景文发表了演讲。

关键字: 华为 12nm EDA 半导体

8月28日消息,在2024中国国际大数据产业博览会上,华为常务董事、华为云CEO张平安发表演讲称,数字世界的话语权最终是由生态的繁荣决定的。

关键字: 华为 12nm 手机 卫星通信

要点: 有效应对环境变化,经营业绩稳中有升 落实提质增效举措,毛利润率延续升势 战略布局成效显著,战新业务引领增长 以科技创新为引领,提升企业核心竞争力 坚持高质量发展策略,塑强核心竞争优势...

关键字: 通信 BSP 电信运营商 数字经济

北京2024年8月27日 /美通社/ -- 8月21日,由中央广播电视总台与中国电影电视技术学会联合牵头组建的NVI技术创新联盟在BIRTV2024超高清全产业链发展研讨会上宣布正式成立。 活动现场 NVI技术创新联...

关键字: VI 传输协议 音频 BSP

北京2024年8月27日 /美通社/ -- 在8月23日举办的2024年长三角生态绿色一体化发展示范区联合招商会上,软通动力信息技术(集团)股份有限公司(以下简称"软通动力")与长三角投资(上海)有限...

关键字: BSP 信息技术
关闭
关闭