当前位置：首页 > 芯闻号 > 充电吧

海量词库的单词拼写检查、推荐到底是怎么做到的？

时间：2019-01-22 10:29:03

关键字：算法词库

手机看文章

扫描二维码
随时随地手机看文章

[导读]海量词库的单词拼写检查、推荐到底是怎么做到的？

前言

在我们日常应用中，应该遇到不少类似的状况：

写文档时，单词拼写错误后，工具自动推荐一个相似且正确的拼写形式；
使用搜狗输入法时，敲错某个字的拼音照样能够打出我们想要的汉字；
利用搜索引擎进行搜索时，下拉框中自动列出与输入相近的词语。
等等，不一一列举。

这种功能是如何实现的呢？里面用到了哪些算法呢？本文就来介绍一个能够完成这个任务的算法。

问题描述

其实，这几个问题都能够转换成同一个问题：即对于给定的输入字符串T，在预先准备好的模式串集合Q中找到与输入串相似的模式串子集。

那么如何得到准备好的这些模式串集合呢？我们可以通过数据挖掘等一些机制来得到。

那么接下来的问题就是如何快速的从这个集合中找到与输入串相似的字符串？通常我们用最小编辑距离来表示两个字符串的相似程度。

例如，对于输入串T，我们限制错误数小于等于2，即在预先准备好的模式集合中找所有与输入串编辑距离小于等于2的字符串。

有什么算法能够快速完成这个任务呢？

暴力算法

遍历集合Q中的每个模式串P，分别计算其与输入串T的最小编辑距离，如果编辑距离小于指定的错误容忍度x，则输出这个模式串。

时间复杂度：O(|Q| * n * m)，当|Q|很大时，速度将会很慢。

那么这个算法可以优化么？可以！

比如，第一个字很少有人输入错，所以我们可以在模式串集合Q中只对第一个字与输入串第一个字相同的那些字符串进行相似度计算，这样就能够减少相当多的算量，是一个可行方法。

但是这也有问题，假若少部分人确实第一个字输入错了，那么这个算法找到的所有串也是错的，不能达到纠错的效果。

所以，针对首字符过滤的优化算法有一定的局限性。

步步优化

我们仔细思考这个问题，由于模式串Q是一个集合，那么其中必定有大量的模式串有共同的前缀。能否利用这个前缀进行优化呢？

优化1：利用两个词的相同前缀进行优化

比如：字符串 explore和explain，他们有公共的前缀，这就意味着他们与字符串explode的编辑矩阵的前几列值是相同的，不用重复计算，如下图红色部分所示。

explore与explain无论与任何字符串计算编辑距离，编辑矩阵的前4列肯定一模一样。所以，如果我们已经计算过explore与某个串的编辑距离后，那么当计算该串与explain的编辑距离时，前4列可以复用，直接从第五列开始计算。

到此，我们得到一个新的算法计算多模式的编辑距离：把模式串集合建立成一棵字典树，深度优先遍历这棵树，在遍历的过程中，不断更新编辑矩阵的某一个列，如果到达的节点是一个终结符，并且T与P（路径上的字符形成的字符串）的编辑距离小于指定的容忍度，则找到一个符合条件的串。

优化2：剪枝

虽然我们利用词前缀优化了算法，能够避免拥有相同前缀模式串的编辑矩阵的重复计算，但是必须要遍历所有节点。有没有什么办法能够在计算到某一深度后，根据一些限制条件能够剪去该子树其它剩余节点的计算呢？在搜索算法中，这种优化叫做剪枝。接下来我们讨论一下该如何设计一个剪枝函数。

重新审视我们的编辑距离定义，其实可以看成是把字符串P和T分别拆分成两段，然后计算对应的段的编辑距离之和，如下图所示。

字符串P和T分别拆分成两段，红色和绿色。红色部分之间的编辑距离与绿色部分之间的编辑距离之和即为字符串P和T的编辑距离。

举个例子，更形象：

例子1

1	ed("explore", "express") = ed("explo", "exp") + ed("re", "ress")

例子2

1	ed("explore", "express") = ed("exp", "exp") + ed("lore", "ress")

例子3
但是，并不是每种划分都是正确的，比如下面图所示：

1	ed("ex","exp") + ed("plore", "ress") = 1 + 4 = 5

所以，最小编辑距离问题又相当于一个最优拆分，即对于字符串P中位置为i的字符，找到在T中的一个最优位置j，使得

1	ed(P.prefix(i), T.prefix(j)) + ed(P.suffix(i+1), T.suffix(j+1))

最小。

回到我们这个问题中来，如果我们限制P和T的最小编辑距离小于等于x，

我们让 p[i]分别匹配t[i-x],t[i-x+1],……,t[i],t[i+1],……t[i+x]，并找到其中前半段匹配的最小的编辑距离ed1=ed(p[1~i],t[1~j])，如果ed1大于x，我们则能推断出ed(p,t)也终将大于x（ed=ed1+ed2>x）。

为什么p[i]不匹配t[i-x-1]以及之前的位置呢？那是因为ed(p.prefix(i), t.prefix(i-x-1)) > x，因为必须至少在t.prefix(i-x-1)中插入x+1个字符才能保证字符串长度相等；同理p[i]也不能匹配t[i+x+1]及其之后的位置。所以，根据分段原则，最优匹配肯定出现在t[i-x] ~ t[i+x]之间，如果这个区间的最小编辑距离都大于x，那么我们无需对p[i+1]及其之后的字符进行匹配计算。

例如：当遍历到蓝色节点l时，路径形成的字符串expl与T=exist满足剪枝条件，则后序节点不需要遍历，因为后面不可能有任何一个字符串满足与T的编辑距离小于2。

至此，我们得到了剪枝优化：深度遍历到达字典树的某个节点，其路径上的字符组成字符串P，计算其与T.prefix(i-x), T.prefix(i-x+1),……T.prefix(i+x)的最小编辑距离，如果其中的最小值大于x，则停止遍历这棵子树上的后面的节点。

其实，这个最终版本的优化算法出自论文：《Error-tolerant finite-state recognition with applications to morphological analysis and spelling correction》.K Oflazer:1996

代码实现与效果对比

代码实现需需要很强的技巧性，因为无论是剪枝函数还是进行最终确认函数都可以复用同一个编辑矩阵，贴一个很丑陋的代码：https://github.com/haolujun/Algorithm/tree/master/muti-edit-distance

这个算法在错误容忍度非常小的情况下效率非常高，我随机生成了10万个长度5~10的模式串，再随机生成100个输入串T（长度5 ~ 10），字符集大小为10，x最小编辑距离限制，计算多模式编辑距离，处理总时间如下，单位ms：

算法	x = 1	x = 2	x = 3	x = 4	x = 5	x = 6
暴力算法	21990	21990	21990	21990	21990	21990
优化算法	97	922	4248	11361	20097	28000

当容忍度很小时，优化算法完胜暴力算法，并且实际应用中x一般取值都非常小，正好适合优化算法。

当x值增大，优化算法效率逐渐下降，并且最后慢于暴力算法，这是因为优化算法实现复杂导致（递归+更复杂的判断）。

本站声明：本文章由作者或相关机构授权发布，目的在于传递更多信息，并不代表本站赞同其观点，本站亦不保证或承诺内容真实性等。需要转载请联系该专栏作者，如若文章内容侵犯您的权益，请及时联系本站删除。

换一批

延伸阅读

[通信先锋]

阿维塔、赛力斯已入股！华为引望可能成“中国博世”

9月2日消息，不造车的华为或将催生出更大的独角兽公司，随着阿维塔和赛力斯的入局，华为引望愈发显得引人瞩目。

关键字：阿维塔塞力斯华为

[美通社全球TMT]

Trianz与AWS达成战略合作协议，彻底改变云采用和管理方式

加利福尼亚州圣克拉拉县2024年8月30日 /美通社/ -- 数字化转型技术解决方案公司Trianz今天宣布，该公司与Amazon Web Services （AWS）签订了...

关键字： AWS AN BSP 数字化

[美通社全球TMT]

人工智能驱动工具SODA V将颠覆汽车市场，使汽车开发时间和成本降低90%

伦敦2024年8月29日 /美通社/ -- 英国汽车技术公司SODA.Auto推出其旗舰产品SODA V，这是全球首款涵盖汽车工程师从创意到认证的所有需求的工具，可用于创建软件定义汽车。 SODA V工具的开发耗时1.5...

关键字：汽车人工智能智能驱动 BSP

[美通社全球TMT]

从容应对未知风险----解密亚马逊云科技的韧性之道

北京2024年8月28日 /美通社/ -- 越来越多用户希望企业业务能7×24不间断运行，同时企业却面临越来越多业务中断的风险，如企业系统复杂性的增加，频繁的功能更新和发布等。如何确保业务连续性，提升韧性，成...

关键字：亚马逊解密控制平面 BSP

[通信先锋]

中国游戏市场开始复苏！腾讯、网易等巨头缩减在日本投资

8月30日消息，据媒体报道，腾讯和网易近期正在缩减他们对日本游戏市场的投资。

关键字：腾讯编码器 CPU

[通信先锋]

独立自主！华为董事：致力打造不依赖西方的技术

8月28日消息，今天上午，2024中国国际大数据产业博览会开幕式在贵阳举行，华为董事、质量流程IT总裁陶景文发表了演讲。

关键字：华为 12nm EDA 半导体

[通信先锋]

华为张平安：数字世界话语权最终由生态繁荣决定！

8月28日消息，在2024中国国际大数据产业博览会上，华为常务董事、华为云CEO张平安发表演讲称，数字世界的话语权最终是由生态的繁荣决定的。

关键字：华为 12nm 手机卫星通信

[美通社全球TMT]

中国通信服务公布2024年中期业绩

要点：有效应对环境变化，经营业绩稳中有升落实提质增效举措，毛利润率延续升势战略布局成效显著，战新业务引领增长以科技创新为引领，提升企业核心竞争力坚持高质量发展策略，塑强核心竞争优势...

关键字：通信 BSP 电信运营商数字经济

[美通社全球TMT]

NVI技术创新联盟成立！自主生态将带动产业链高速发展

北京2024年8月27日 /美通社/ -- 8月21日，由中央广播电视总台与中国电影电视技术学会联合牵头组建的NVI技术创新联盟在BIRTV2024超高清全产业链发展研讨会上宣布正式成立。活动现场 NVI技术创新联...

关键字： VI 传输协议音频 BSP

[美通社全球TMT]

软通动力与长三角投资达成战略合作共谋数字生态新发展

北京2024年8月27日 /美通社/ -- 在8月23日举办的2024年长三角生态绿色一体化发展示范区联合招商会上，软通动力信息技术（集团）股份有限公司（以下简称"软通动力"）与长三角投资（上海）有限...

关键字： BSP 信息技术

关闭

关闭