基于lucene的中文自然语言搜索引擎

基于lucene的中文自然语言搜索引擎

ID:15067933

大小:4.82 MB

页数:75页

时间:2018-08-01

基于lucene的中文自然语言搜索引擎_第1页
基于lucene的中文自然语言搜索引擎_第2页
基于lucene的中文自然语言搜索引擎_第3页
基于lucene的中文自然语言搜索引擎_第4页
基于lucene的中文自然语言搜索引擎_第5页
资源描述:

《基于lucene的中文自然语言搜索引擎》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、上海交通大学硕士学位论文基于Lucene的中文自然语言搜索引擎姓名:胡长春申请学位级别:硕士专业:通信与信息系统指导教师:刘功申20090101上海交通大学硕士学位论文摘要基于Lucene的中文自然语言搜索引擎摘要Internet技术的飞速发展,信息的发布与共享超越了时空的限制,人类进入一个前所未有的“信息爆炸”时代。互联网信息的极速膨胀提供给用户海量的信息资源的同时,也带来了寻找信息的困难。如果没有一个强有力的工具来帮助人们寻找、发掘有用的信息,人们就会被湮没在信息的海洋中,迷失方向。搜索引擎正是为了解决网络“信息迷航”问题而诞生的技术。它以一定的策略在因特网中

2、搜集、发现信息,对信息进行理解、提取、组织和处理,并为用户提供检索服务。它成为连接用户和互联网的最佳纽带,起到网络信息导航的作用。然而由于搜索引擎技术涉及数据库管理、信息检索、人工智能、自然语言处理、机器学习等诸多学科,各商业公司都不愿意将自己的搜索技术公布于众,这使得搜索引擎的应用,受到了某种程度的限制。然而,开源工具Lucene的出现,使得搜索引擎开发者可以简单、快捷、并且有针对性地实现相当强大的搜索功能。首先,本文针对Lucene中的中文分析器不符合汉语的习惯,造成检索查全率、查准率以及检索性能不够理想,实现基于标准中文词库和前向最大匹配算法的中文分析器。实

3、验证明:该分析器的分词结果更符合汉语的习惯,并且在检索速度方面性能提升了2-4倍,在检索召回率方面性能提升了59%。其次,本文对用户查询接口进行改进,实现基于自然语言理解的查询接口。对用户提交的以自然语言表述的问题进行分词处理,去除相关辅助词,最后提取出核心词进行查询。为更准确对用户提交的自然语言进行分词,本文采用两种相结合的双向扫描的方法,再利用利用词句切I上海交通大学硕士学位论文摘要分概率对歧义字段进行处理。[1]另外,本文通过对网页相关度、PageRank算法Lucene评分系统进行研究,提出将PageRank算法引入Lucene评分系统,让系统能够将更[2

4、]重要的网页更好的返回给用户。同时利用simhash算法来计算返回页面之间的相似度,检测过滤相似网页。并且通过对排序算法的研究,改进原有快速排序。最后,完成自然语言搜索引擎原型系统的设计和实现。原型系统对上海交通大学网络资源进行整合。试验证明,改原型系统具有较好的性能和实用性,为后续相关的研究工作提供了良好的平台。关键词:Lucene,搜索引擎,索引,检索,分词II上海交通大学硕士学位论文ABSTRACTCHINESENATURALLANGUAGESEARCHENGINEBASEDONLUCENEABSTRACTWithrapiddevelopmentofInte

5、rnettechnology,informationsharingandreleasing,humanityhasenteredanunprecedented"informationexplosion"ofthetimes.TheexpansionInternetinformation,providedusmassofinformationresources,butalsobroughtusdifficultiestofindinformation.Ifwedonothaveapowerfultooltohelpusfindanddiscoverusefulinf

6、ormation,wewillbelostintheoceanofinformation.Searchengineisatechnologytoaddresssuchproblem.It'satechnologyinthecollectionandfoundinformation,understandingoftheinformation,extraction,processingandorganizations,andtoprovideuserswithsearchservices.ItthebesttooltobringInternettous,andplay

7、aroleasnavigation.However,thesearchenginetechnologyrelatedtodatabasemanagement,informationretrieval,artificialintelligence,naturallanguageprocessing,machinelearningandmanyotherdisciplines,commercialcompaniesarenotwillingtosharetheirownsearchtechnologywiththepublic,whichblockthedevelop

8、mento

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。