当前位置:首页 > 智能硬件 > 人工智能AI
[导读]   自然语言处理是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,

  自然语言处理是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系,但又有重要的区别。自然语言处理并不是一般地研究自然语言,而在于研制能有效地实现自然语言通信的计算机系统,特别是其中的软件系统。因而它是计算机科学的一部分。

  自然语言处理(NLP)是计算机科学,人工智能,语言学关注计算机和人类(自然)语言之间的相互作用的领域。

  总结自然语言处理发展的曲折历史可以看出,基于规则的理性主义方法和基于统计的经验主义方法各有千秋,因此,我们应当用科学的态度来分析它们的优点和缺点。

  我们认为,基于规则的理性主义方法的优点是:

  * 基于规则的理性主义方法中的规则主要是语言学规则,这些规则的形式描述能力和形式生成能力都很强,在自然语言处理中有很好的应用价值。

  * 基于规则的理性主义方法可以有效地处理句法分析中的长距离依存关系(long-distance dependencies)等困难问题,如句子中长距离的主语和谓语动词之间的一致关系(subject-verb agreement)问题,wh 移位(wh-movement)问题。

  * 基于规则的理性主义方法通常都是明白易懂的,表达得很清晰,描述得很明确,很多语言事实都可以使用语言模型的结构和组成成分直接地、明显地表示出来。

  * 基于规则的理性主义方法在本质上是没有方向性的,使用这样的方法研制出来的语言模型,既可以应用于分析,也可以应用于生成,这样,同样的一个语言模型就可以双向使用。

  * 基于规则的理性主义方法可以在语言知识的各个平面上使用,可以在语言的不同维度上得到多维的应用。这种方法不仅可以在语音和形态的研究中使用,而且,在句法、语义、语用、篇章的分析中也大显身手。

  * 基于规则的理性主义方法与计算机科学中提出的一些高效算法是兼容的,例如,计算机算法分析中使用Earley 算法(1970 年提出)和Marcus 算法(1978 年提出)都可以作为基于规则的理性主义方法在自然语言处理中得到有效的使用。

  基于规则的理性主义方法的缺点是:

  * 基于规则的理性主义方法研制的语言模型一般都比较脆弱,鲁棒性很差,一些与语言模型稍微偏离的非本质性的错误,往往会使得整个的语言模型无法正常地工作,甚至导致严重的后果。不过,近来已经研制出一些鲁棒的、灵活的剖析技术,这些技术能够使基于规则的剖析系统在剖析失败中得到恢复。

  * 使用基于规则的理性主义方法来研制自然语言处理系统的时候,往往需要语言学家、语音学家和各种专家的配合工作,进行知识密集的研究,研究工作的强度很大;基于规则的语言模型不能通过机器学习的方法自动地获得,也无法使用计算机自动地进行泛化。

  * 使用基于规则的理性主义方法设计的自然语言处理系统的针对性都比较强,很难进行进一步的升级。例如,斯罗肯(Slocum)在1981 年曾经指出,LIFER 自然语言知识处理系统在经过两年的研发之后,已经变得非常之复杂和庞大,以至于这个系统原来的设计人很难再对它进行一点点的改动。对于这个系统的稍微改动将会引起整个连续的“水波效应”(ripple effect),以至于“牵一发而动全身”,而这样的副作用是无法避免和消除的。

  * 基于规则的理性主义方法在实际的使用场合其表现往往不如基于统计的经验主义方法那样好。因为基于统计的经验主义方法可以根据实际训练数据的情况不断地优化,而基于规则的理性主义方法很难根据实际的数据进行调整。基于规则的方法很难模拟语言中局部的约束关系,例如,单词的优先关系对于词类标注是非常有用的,但是基于规则的理性主义方法很难模拟这种优先关系。

  不过,尽管基于规则的理性主义方法有这样的或那样的不足,这种方法终究是自然语言处理中研究得最为深入的技术,它仍然是非常有价值和非常强有力的技术,我们决不能忽视这种方法。事实证明,基于规则的理性主义方法的算法具有普适性,不会由于语种的不同而失去效应,这些算法不仅适用于英语、法语、德语等西方语言,也适用于汉语、日语、韩国语等东方语言。在一些领域针对性很强的应用中,在一些需要丰富的语言学知识支持的系统中,特别是在需要处理长距离依存关系的自然语言处理系统中,基于规则的理性主义方法是必不可少的。

 

  我们认为,基于统计的经验主义方法的优点是:

  * 使用基于统计的经验主义方法来训练语言数据,从训练的语言数据中自动地或半自动地获取语言的统计知识,可以有效地建立语言的统计模型。这种方法在文字和语音的自动处理中效果良好,在句法自动分析和词义排歧中也初露锋芒。

  * 基于统计的经验主义方法的效果在很大的程度上依赖于训练语言数据的规模,训练的语言数据越多,基于统计的经验主义方法的效果就越好。在统计机器翻译中,语料库的规模,特别是用来训练语言模型的目标语言语料库的规模,对于系统性能的提高,起着举足轻重的作用。因此,可以通过扩大语料库规模的办法来不断提高自然语言处理系统的性能。

  * 基于统计的经验主义方法很容易与基于规则的理性主义方法结合起来,从而处理语言中形形色色的约束条件问题,使自然语言处理系统的效果不断地得到改善。

  * 基于统计的经验主义方法很适合用来模拟那些有细微差别的、不精确的、模糊的概念(如“很少、很多、若干”等),而这些概念,在传统语言学中需要使用模糊逻辑(fuzzy logic)才能处理。

  基于统计的经验主义方法的缺点是:

  * 使用基于统计的经验主义方法研制的自然语言处理系统,其运行时间是与统计模式中所包含的符号类别的多少成比例线性地增长的,不论在训练模型的分类中还是在测试模型的分类中,情况都是如此。因此,如果统计模式中的符号类别数量增加,系统的运行效率会明显地降低。

  * 在当前语料库技术的条件下,要使用基于统计的经验主义方法为某个特殊的应用领域获取训练数据,还是一件费时费力的工作,而且很难避免出错。基于统计的经验主义方法的效果与语料库的规模、代表性、正确性以及加工深度都有密切的关系,可以说,用来训练数据的语料库的质量在很大的程度上决定了基于统计的经验主义方法的效果。

  * 基于统计的经验主义方法很容易出现数据稀疏的问题,随着训练语料库规模的增大,数据稀疏的问题会越来越严重,这个问题需要使用各种平滑(smoothing)技术来解决。

本站声明: 本文章由作者或相关机构授权发布,目的在于传递更多信息,并不代表本站赞同其观点,本站亦不保证或承诺内容真实性等。需要转载请联系该专栏作者,如若文章内容侵犯您的权益,请及时联系本站删除。
换一批
延伸阅读

9月2日消息,不造车的华为或将催生出更大的独角兽公司,随着阿维塔和赛力斯的入局,华为引望愈发显得引人瞩目。

关键字: 阿维塔 塞力斯 华为

加利福尼亚州圣克拉拉县2024年8月30日 /美通社/ -- 数字化转型技术解决方案公司Trianz今天宣布,该公司与Amazon Web Services (AWS)签订了...

关键字: AWS AN BSP 数字化

伦敦2024年8月29日 /美通社/ -- 英国汽车技术公司SODA.Auto推出其旗舰产品SODA V,这是全球首款涵盖汽车工程师从创意到认证的所有需求的工具,可用于创建软件定义汽车。 SODA V工具的开发耗时1.5...

关键字: 汽车 人工智能 智能驱动 BSP

北京2024年8月28日 /美通社/ -- 越来越多用户希望企业业务能7×24不间断运行,同时企业却面临越来越多业务中断的风险,如企业系统复杂性的增加,频繁的功能更新和发布等。如何确保业务连续性,提升韧性,成...

关键字: 亚马逊 解密 控制平面 BSP

8月30日消息,据媒体报道,腾讯和网易近期正在缩减他们对日本游戏市场的投资。

关键字: 腾讯 编码器 CPU

8月28日消息,今天上午,2024中国国际大数据产业博览会开幕式在贵阳举行,华为董事、质量流程IT总裁陶景文发表了演讲。

关键字: 华为 12nm EDA 半导体

8月28日消息,在2024中国国际大数据产业博览会上,华为常务董事、华为云CEO张平安发表演讲称,数字世界的话语权最终是由生态的繁荣决定的。

关键字: 华为 12nm 手机 卫星通信

要点: 有效应对环境变化,经营业绩稳中有升 落实提质增效举措,毛利润率延续升势 战略布局成效显著,战新业务引领增长 以科技创新为引领,提升企业核心竞争力 坚持高质量发展策略,塑强核心竞争优势...

关键字: 通信 BSP 电信运营商 数字经济

北京2024年8月27日 /美通社/ -- 8月21日,由中央广播电视总台与中国电影电视技术学会联合牵头组建的NVI技术创新联盟在BIRTV2024超高清全产业链发展研讨会上宣布正式成立。 活动现场 NVI技术创新联...

关键字: VI 传输协议 音频 BSP

北京2024年8月27日 /美通社/ -- 在8月23日举办的2024年长三角生态绿色一体化发展示范区联合招商会上,软通动力信息技术(集团)股份有限公司(以下简称"软通动力")与长三角投资(上海)有限...

关键字: BSP 信息技术
关闭
关闭