欢迎来到天天文库
浏览记录
ID:9801633
大小:85.50 KB
页数:6页
时间:2018-05-10
《最大匹配中文分词算法在垂直搜索引擎中的应用》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、最大匹配中文分词算法在垂直搜索引擎中的应用李晓红(邵阳医学高等专科学校湖南邵阳422000)摘要:中文分词对垂直搜索引擎的意义不容忽视,本文结合顺序表和跳跃表,提出一种改进的整词分词词典结构,探讨一种基于最大匹配的分词算法,将哈希法和二分法进行分词匹配,并引入随机数。实验表明,该算法具有较高的分词效率和准确率,性能较好。关键词:分词词典;分词算法;哈希法;垂直搜索ApplicationonVerticalsearchenginesofChineseWordSegmentationBasedontheMaximumMatchLiXiao-hong(ShaoyangMed
2、icalCollegeHuNanShaoyang422000)Abstract:ChineseWordSegmentationisimportanttoVerticalsearchengines,Thisarticlecombinedwiththesequencetableandleaping,proposedanimprovementstructureofsegmentationdictionary.DiscussedanarithmeticbasedonSegmentationalgorithmformaximummatching.Hashingandbinary
3、searchisusedtosegmentationmatchforenquiring,andiintroducingtherandomnumber.ExperimentindicatesthatthearithmeticcanimprovethespeedofChinesesegmentationandprecision.Keywords:segmentationdictionary;segmentationalgorithm;Hashing;Verticalsearch1、引言21世纪的飞速发展,人们已无法离开互联网这个共享信息的平台。然互联网的共享信息也成爆炸性
4、膨胀。在这种背景下,搜索引擎技术以其界面友好、使用方便成为目前不可或缺的检索工具。传统搜索引擎已不能满足特定用户的需要,垂直搜索引擎的诞生解决了广大用户对某种特定需求的搜索和解决。在专业,精度和深度方面,垂直搜索确实比传统搜索略胜一筹。在用户的体验程度上垂直搜索引擎能更好的贴近用户的使用,用户满意度良好。先来看看垂直搜索引擎的结构。2、垂直搜索引擎体系结构垂直搜索引擎基础体系结构及运行原理包括搜索器(Spider/Crawler)、索引器(Indexer)和检索器(Searcher)[1]。搜索引擎利用Spider/Crawler获取网页,用Indexer解析和索引页
5、面,用Searcher利用Web服务器(WebServer)来响应用户的查询请求【作者简介】李晓红(1980-),女,大学本科,讲师,主要从事计算机网络教学与研究。查询结果用户界面检索器查询索引索引器网页信息分析器分词器本地磁盘网络蜘蛛WEB图1:垂直搜索体系结构进行检索[7]。从图1中我们可以看出,搜索引擎通过解析器将网页内容读入内存后,首先对其进行分词虽然分词只是垂直搜索中很小的一个模块,可是它将直接影响用户的体验,有文献资料指出,如果设计一个垂直搜索引擎,给分词部分安排十个人工作都不算多,可见现今的搜索引擎不仅仅只是满足搜索信息量大,内容多,而是如何让用户使用之
6、后感觉这个搜索就是能更好体现用户的意图。3、中文分词近10年来,众多专家在汉语自动分词与自动标引上进行了许多的研究,也找到了许多方法,如最大匹配法、逐词遍历法、高频优先分词法等。但由于中文语言的复杂性,自动分词技术还一直处于发展阶段。再者由于现在开源的蜘蛛有Nutch和Lucence,目前最新版本的Lucence,对最大匹配中文分词算法能较好的支持,因此本文试将最大匹配算法与概率算法结合起来,并应用到垂直搜索引擎当中,以期找到一种准确、高效的中文自动分词算法,提高搜索引擎的的效率,与用户体验程度。3.1、词典结构在分析最大匹配算法之前,先开看看汉语分词的词典机制。现在
7、已有3种汉语分词词典机制:基于整词二分的分词词典机制,基于TRIE索引树的分词词典机制,基于逐字二分的分词词典机制。本方法采用顺序词表和跳跃词表相结合的一种改进的整词二分的分词词典机制,有效减少词典空间实现快速查询,如图1所示。索引项链式词表二字词表三字词表顺序词表多字词表图1词典机制词典结构主要由2个部分组成,即词首字索引表和词典正文。(1)词首字索引表词首字索引表的结构是:按区位码的Hash散列存储。根据汉字系统区位码、与机内码的换算关系,散列的词首字索引节点可以根据汉字的机内码采用下式获得:Pos(C1C2)=Pos0+((C1-176)×94
此文档下载收益归作者所有