中文搜索引擎中的分词技术研究

中文搜索引擎中的分词技术研究

ID:11024067

大小:230.79 KB

页数:4页

时间:2018-07-09

中文搜索引擎中的分词技术研究_第1页
中文搜索引擎中的分词技术研究_第2页
中文搜索引擎中的分词技术研究_第3页
中文搜索引擎中的分词技术研究_第4页
资源描述:

《中文搜索引擎中的分词技术研究》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、科学技术与工程ScienceTechnologyandEngineeringVol.8No.9May20082008Sci.Tech.Engng.第8卷第9期2008年5月167121819(2008)922481204中文搜索引擎中的分词技术研究房志峰(山东政法学院信息科学技术系,济南250000)摘要分词模块是中文搜索引擎的一个重要组成部分,针对分词提出了一种最短路径与共首字歧义词概率的比较相结合的方法,首先寻找最短路径。如果最短路径不只一条,就比较共首字歧义词概率,选择概率较大的一条路径,效果非常明显。对未登录词识别提出了一种改进的移动窗口算法,在单字序列中移动窗口,并记录状态

2、来寻找新词,能够识别大部分的未登录词。关键词中文分词未登录词识别最短路径共首字歧义词概率窗口移动法中图法分类号TP39113;文献标志码A随着信息技术的快速发展,因特网逐渐成为人们生活中一个非常重要的组成部分。通过使用因特网,人们能够获得很多有用的信息。但是网上的信息浩如烟海,只有使用搜索引擎才能快速有效地获取有用信息。在我国,对于网上中文信息的有效搜索显然比其它语言要重要的多,但是由于语言的差异,中、英文搜索引擎之间有着很大的区别。因此,中文搜索引擎的设计不可能只是英文搜索引擎的简单模仿。对于英文文本信息来说,它的基本单位是单词,而且单词之间用空格分隔。因此,在只需要对单词的后缀进

3、行处理就可以了。而中文是以字为单位,字和字之间没有任何分隔符号,句子中所有的字连起来才能描述一个意思。如果简单地以单个汉字作为信息处理的基本单元,那么不仅缺乏必要的语义表达,而且还会带来大量的冗余信息。因此若想建立基于词的索引,就需要一种被称之为“汉语词语切分”的技术,也就是中文分词技术。中文分词就是将连续的汉字序列按照一定的规范重新组合成词序列的过程。由此可见,分词技术对于中文搜索引擎来说是非常重要的。1中文搜索引擎分词模块的结构中文搜索引擎的分词模块工作的一般过程如下:以词典为依据,基于字符串匹配的原理,采用一定的算法将中文文本的字符串与词典中的词逐一匹配。如果成功,就认为给字符

4、串是词;如果匹配的结果不是唯一的,说明存在歧义,就需要再使用消除歧义的算法选择其中一种最有可能正确的结果。对于分词后得到的结果,按照一定的算法,对其中存在的词典中没有登录的词进行识别,将识别的未登录词加入到词典中,从而实现词典的自动扩充。它的结构图见图1。2007年12月27日收到图1词典登录结构从图1可以看出整个分词模块的核心是分词、未登录词识别两个算法。其中分词算法的核心是歧义消除算法。目前常采用的分词方法主要有以下几种:正向最大匹配法、逆向最大匹配法、双向匹配法、逐词遍历法、设立切分标志法、最短路径法、N2最短路径法等,常采用的未登录词识别的方法有:统计方法、N2grams方法

5、、决策树方法、基于分解和动态规划策略的方法等。基于对上述算法的学习,本文提出了一种切实可行的分词方案。首先,采用最短路径和共首字歧义词概率相结合的方法实现了歧义消除算法,然后使用了一种改进的基于统计的窗口移动方法实现了未登录词识别算法。点6的前驱是结点4;结点7的最短路径为5,“他说的确实在理”;“他说的确实在理”这两条路径结点7的前驱是结点5;“他说的确实在理”这条路径结点7的前驱是结点6。通过这样的方法,我们求得了从结点0到结点7的最短路径长度为5,共有三条。212使用共首字歧义词概率从最短路径中选择一条作为分词的结果定义:共首字歧义词概率=以字c作为首字的词w出现的次数;f(c

6、,w)字c出现的次数对于上面的例子首先找到第一处发生歧义的地方,即结点2的位置,这里要查词典求“的”和“的确”两个共首字歧义词概率,即f(的,的)和f(的,的确)。在这里f(的,的)很明显是大于f(的,的确)的,所以对于上面求得的3条最短路径来说,“他说的确实在理”才是最后的结果。如果剩下的最短路径还不止一条,继续从左向右找剩下的最短路径中第一处发现歧义的地方,继续上面的处理方法直到只剩下一条为止。2分词算法的设计211使用有向无环图求最短路径根据词典,找出给定字串中所有的词,然后构造词语切分的有向无环图。对此有限无环图的所有有向边的边长(权值)均设为1,即假定所有的词都是对等的。然

7、后对于从起点到终点的所有路径,利用贪心算法,找出其中最短的(很可能不止一条)并记录下来。如图2。3未登录词识别算法的设计文献[3]提出了一种从N2grams中抽取未登录词的方法,通过统计计算N元组词频来达到未登录词识别的目的。文献[4]中提出了一种统计与规则相结合的新词识别方法,首先使用一种基于统计的窗口移动扩展法,然后对得到的结果再使用规则过滤法则进行过滤。其中的基于统计的窗口移动扩展法是将分词后未分出的词当作单字处理,并且将所有的连续单字连接起来,在其

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。