当前位置:首页 > 芯闻号 > 充电吧
[导读]语言识别模型源于一个数学家读小说的故事。1913 年,俄罗斯数学家安德雷 · 安德耶维齐 · 马尔科夫拿起一本俄罗斯文学的经典作品,亚历山大 · 普希金的歌剧小说。不过马尔科夫只是为了测试自 1909

语言识别模型源于一个数学家读小说的故事。

1913 年,俄罗斯数学家安德雷 · 安德耶维齐 · 马尔科夫拿起一本俄罗斯文学的经典作品,亚历山大 · 普希金的歌剧小说。不过马尔科夫只是为了测试自 1909 年发展起来的概率论。数学家更想看到一个个字母后面的数学结构。那时的概率论主要用来分析轮盘赌局和硬币翻转等现象,认为之前的结果不会影响到的当前事件的可能性。但是马尔科夫不赞同,他觉得大多数事情都有因果关系,他想要通过概率分析一些事情,并建立模型。

德雷 · 安德耶维齐 · 马尔科夫

成为马尔科夫的试验材料。他的假设听上去匪夷所思——这本经典文学作品中,某个位置会出现什么字母,某种程度上取决于它之前的字母。

计算机还没出现的 1913,马尔科夫抄录了书中的前 20000 个字母,不包括标点和空格。然后按 10*10 的排列方式,填在 200 个网格中,开始逐行逐列对元音字母进行计数。统计完发现,43% 的字母是元音,57% 是辅音。马尔科夫还将这些字母分成成对的元音和辅音组合,结果是:1104 个元音对、3827 个辅音对、15069 个元音 - 辅音和辅音 - 元音对。从统计学看,这证明,在普希金文本中的任何给定字母,如果是元音,则下一字母可能是辅音,反之亦然。

马尔科夫用这个结果证明的文本不是字母的随机分布,而是具有可以建模的基本统计的性质。后来,人们称马尔科夫这是给自己的数学技能找到一个实际用途——用链模型来模拟俄罗斯文学中辅音和元音的头韵法。

链模型就是马尔科夫链,又称离散时间马尔科夫链,指在状态空间中,从一个状态转换到另一个状态的随机过程,该过程是 “无记忆”性质的,下一状态的概率分布只能由当前状态决定。马尔科夫在随机过程领域的研究成果还有马尔科夫决策过程,它提供面对部分随机、部分可由人类决策的状态下,如何进行决策,经过演化,被广泛应用在机器人学、自动化控制等领域。在马尔科夫链衍和马尔科夫决策过程理论基础上,20 世纪 60 年代,Leonard E. Baum 和其它一些作者描述了一种隐性马尔科夫模型,这是大多数现在自动语音识别系统的基础。

维基百科上有一个事例来解释隐形马尔科夫模型。

假设你有一个住的很远的朋友,他会每天打电话说当天做了什么。他只会做三件事:公园散步、购物、清理房间,他根据天气选择做什么事。你不知道他住处每天的天气怎么样,但是你知道总趋势,在他告诉你每天做了什么事情的基础上,你要猜测他所在地的天气状况。

也就是说,在这个隐形马尔科夫模型中,“雨”和 “晴”的状态对你来说是隐藏的,可观察的数据就是 “公园散步”、“购物”、“清理房间”,那么用 Python 写下来就是:

 states = ('Rainy', 'Sunny')
 
 observations = ('walk', 'shop', 'clean')
 
 start_probability = {'Rainy': 0.6, 'Sunny': 0.4}
 
 transition_probability = {
    'Rainy' : {'Rainy': 0.7, 'Sunny': 0.3},
    'Sunny' : {'Rainy': 0.4, 'Sunny': 0.6},
    }
 
 emission_probability = {
    'Rainy' : {'walk': 0.1, 'shop': 0.4, 'clean': 0.5},
    'Sunny' : {'walk': 0.6, 'shop': 0.3, 'clean': 0.1},
    }

在这些代码中,start_probability 代表第一次打电话的不确定性,此时概率分布不平均。transition_probability 表示基于马尔科夫链模型的天气变迁。emission_probability 表示了你朋友每天做某件事的概率。

再以语音系统为例,隐形马尔科夫模型在语音处理上,可以通过隐藏条件猜测下一个音,具体可从语义和发音两方面看。一是单字的发音有前后关系,如英语中的 "They are" 常常发音成 "They're",或是"Did you"会因为"you"的发音受"did"的影响,常常发音成"did ju"。语音识别需要考虑到每个音节的前后关系,才能有较高的准确率。二是,句子中的前后字节间的关系,比如英文中动词后常接固定介词或对应名词,中文也类似。

当然,从马尔科夫数字母,到隐性马尔科夫模型的提出,再到语言识别、生成模型应用,期间还有很多人提出了各种各样的理论。其中影响比较大的是信息论创造者克劳德 · 艾尔伍德 · 香农。

香农对马尔科夫数字母背后的思想很是着迷,像马尔科夫一样,香农尝试建立语言的统计模型,通过统计规则生成文本。

香农最初的实验,通过 26 个字母加 1 个空格,共计 27 个符号,随机抽取字母生成句子,每个字母概率相同,得到:

XFOML RXKHRJFFJUJ ZLPWCFWKCYJ FFJEYVKCQSGHYD QPAAMKBZAACIBZLHJQD

香农说生成的这句话毫无意义,因为当我们交流时,不会选择同等概率的字母组合。正如马尔科夫的实验表明,辅音比元音更可能出现。但是在更高的粒度上,E 比 S 更普遍,S 比 Q 更普遍。为了解决这个问题,香农修改了原始实验字母,使其更精确模拟英语中每个字母出现的概率。比如 E 出现的概率比 Q 高 11%,这样得出一个新的结果,更接近一个正确的句子:

OCRO HLI RGWR NMIELWIS EU LL NBNESEBYA THEI EEI ALHENHTTPA OOBTTVA NAH BRL

在之后的系列实验中,香农证明了,随着统计模型变得更加复杂,可以得到更容易理解的结果。

马尔科夫和香农的实验,被看做是对语言的统计属性进行建模提供了一种新的思路,他们的语言建模和生成的统计方法为自然语言处理开创了一个新的时代。

本站声明: 本文章由作者或相关机构授权发布,目的在于传递更多信息,并不代表本站赞同其观点,本站亦不保证或承诺内容真实性等。需要转载请联系该专栏作者,如若文章内容侵犯您的权益,请及时联系本站删除。
换一批
延伸阅读

9月2日消息,不造车的华为或将催生出更大的独角兽公司,随着阿维塔和赛力斯的入局,华为引望愈发显得引人瞩目。

关键字: 阿维塔 塞力斯 华为

加利福尼亚州圣克拉拉县2024年8月30日 /美通社/ -- 数字化转型技术解决方案公司Trianz今天宣布,该公司与Amazon Web Services (AWS)签订了...

关键字: AWS AN BSP 数字化

伦敦2024年8月29日 /美通社/ -- 英国汽车技术公司SODA.Auto推出其旗舰产品SODA V,这是全球首款涵盖汽车工程师从创意到认证的所有需求的工具,可用于创建软件定义汽车。 SODA V工具的开发耗时1.5...

关键字: 汽车 人工智能 智能驱动 BSP

北京2024年8月28日 /美通社/ -- 越来越多用户希望企业业务能7×24不间断运行,同时企业却面临越来越多业务中断的风险,如企业系统复杂性的增加,频繁的功能更新和发布等。如何确保业务连续性,提升韧性,成...

关键字: 亚马逊 解密 控制平面 BSP

8月30日消息,据媒体报道,腾讯和网易近期正在缩减他们对日本游戏市场的投资。

关键字: 腾讯 编码器 CPU

8月28日消息,今天上午,2024中国国际大数据产业博览会开幕式在贵阳举行,华为董事、质量流程IT总裁陶景文发表了演讲。

关键字: 华为 12nm EDA 半导体

8月28日消息,在2024中国国际大数据产业博览会上,华为常务董事、华为云CEO张平安发表演讲称,数字世界的话语权最终是由生态的繁荣决定的。

关键字: 华为 12nm 手机 卫星通信

要点: 有效应对环境变化,经营业绩稳中有升 落实提质增效举措,毛利润率延续升势 战略布局成效显著,战新业务引领增长 以科技创新为引领,提升企业核心竞争力 坚持高质量发展策略,塑强核心竞争优势...

关键字: 通信 BSP 电信运营商 数字经济

北京2024年8月27日 /美通社/ -- 8月21日,由中央广播电视总台与中国电影电视技术学会联合牵头组建的NVI技术创新联盟在BIRTV2024超高清全产业链发展研讨会上宣布正式成立。 活动现场 NVI技术创新联...

关键字: VI 传输协议 音频 BSP

北京2024年8月27日 /美通社/ -- 在8月23日举办的2024年长三角生态绿色一体化发展示范区联合招商会上,软通动力信息技术(集团)股份有限公司(以下简称"软通动力")与长三角投资(上海)有限...

关键字: BSP 信息技术
关闭
关闭