更新时间:2024-09-26 17:02:20作者:佚名
如今各大流行的搜索引擎几乎都具备一个功能,那就是提供拼写纠错功能。用户将查询的关键词递交给搜索引擎以后,搜索引擎便开始剖析用户的输入,检测用户的拼写是否有错误,假如有的话,给出正确的拼写建议。也就是说,搜索引擎的拼写纠错功能,要完成两部份的工作,首先,对用户输入的查询进行处理,判定是否有拼写错误,接着,对于有拼写错误的查询输入,给出正确词汇的提示。由于英文的拼写纠错涉及到英文动词等复杂逻辑,所以本文只对英语的拼写纠错进行讨论。
1英语词组纠错法
常见的英语词组纠错法,主要有以下几种:误拼辞典法、最小编辑距离法、词湿法,N-gram法和基于规则的技术等,下边我们对这种英语词组纠错法挨个进行介绍。
(1)误拼字典法。这些方式可以理解成穷举法,通过搜集大规模真实文本中拼写出错的英语词组并给出相应的正确拼写,建造一个无歧义的误拼字典。在进行英语词组拼写检测时,查找误拼字典,如命中,则说明该词组拼写有误,该词的正确拼写数组为纠错建议。诸如在搜索引擎的实现中,通过记录日志的方式,把所有用户的输入都记录出来,提取有拼写错误的输入,产生误拼辞典。该方式的特性是算法简单,效率高。但英语拼写错误具有随机性,很难保证误拼字典的无歧义性和全面性,因而查准率低、校对疗效差;并且,对于搜索引擎用户海量的误拼输入,空间复杂度也是须要考虑的问题。
(2)最小编辑距离法。通过估算误拼字符串与辞典中某个词间的最小编辑距离来确定纠错候选词。所谓最小编辑距离是指将一个词串转换为另一个词串所需的最少的编辑操作次数。在编辑操作中,可以将单次的编辑动作归纳为三种:插入字符、删除字符和替换字符;考虑到在实际计算机输入过程中,字符的颠倒异位也是常见的错误,我们将颠倒异位也算作一种编辑动作。还有人提出了反向最小编辑距离法,这些方式首先对每位可能的单个错误根据编辑距离进行搜索,生成一个候文集,之后,通过查辞典看什么是有效的词组,并将这种有效的词组作为误拼字符串的纠错建议。
(3)词湿法。通过建立词干辞典,在英语词组出现错误时,先抽取出该错误词组的词干,之后再去查词干辞典,将辞典中与该词组具有相同词干的正确词组作为该词组的纠错建议。这些技巧主要的难度在于建立词干辞典上,须要对几乎所有的英语词组都进行剖析,提取出每位词组的词干,或则称为骨架词;这些实现的工作量是巨大的,并且词干的选择十分重要,每位词干要有挺好的分辨度,能够给用户给出良好的纠错建议。