欢迎来到天天文库
浏览记录
ID:32007323
大小:4.60 MB
页数:68页
时间:2019-01-30
《搜索引擎返回结果聚类技术的.研究与实现》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、西南交通大学硕士研究生学位论文第1V页clusteringsystemtakesintoaccountPOSTagging,itmeanstotagtheclassofwordsonline.Foritshighcomplexi矽andcomputationalcost,POSTaggingmayimpactsignificantlyOilsystemperformance.Weconductedallin—depthstudyofpartofspeechtaggeLdesignedandachievedaXML·-based··ondict
2、ionarywhichcouldefficientlyreducethegreatcostscausedbyintegratingpartofspeechtaggerintotheclustering.system.Besidesallabove,weintegratedtheNutchsearchengineintoourclusteringsystemmadeitcouldbothclustertheresultsreturnedbytheothersearchenginesandlocalplatformsearchresuRs.Fur
3、thermore,itisamultifunctionalenginewithopenqueryportals.Keywords:DocumentClustering;TF—IDF;POSTagging;Nutch;ClusteringSystem西南交通大学学位论文版权使用授权书本学位论文作者完全了解学校有关保留、使用学位论文的规定,同意学校保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅。本人授权西南交通大学可以将本论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复印手段保存和汇编本学位论文。
4、本学位论文属于1.保密口,在年解密后适用本授权书;●2.不保密留,使用本授权书。(请在以上方框内打“4”)学位论文作者签名:’五,均让目期:砌7I∥-If..‘指导老日期:西南交通大学学位论文创新性声明本人郑重声明:所呈交的学位论文,是在导师指导下独立进行研究工作所得的成果。除文中已经注明引用的内容外,本论文不包含任何其他个人或集体已经发表或撰写过的研究成果。对本文的研究做出贡献的个人和集体,均已在文中作了明确的说明。本人完全意识到本声明的法律结果由本人承担。本学位论文的主要创新点如下:l、在TF.IDF(Tc:rn.1FrequencyIn
5、verse-DocumentFrequency)权重公式的基础上加入词性权重与位置权重对其进行调整。2、在Lingo聚类算法的基础上结合HSTC组织聚类的方法给出了一种层次的Lingo聚类算法(HLingo)。3、设计和实现了一个适用于聚类系统的基于XML的词性标注词典。弼,韵7知矽罗i∥.多西南交通大学硕士研究生学位论文第1页第1章绪论万维网(World.Wide.Web,简称VC'WW或Web)是为广大用户交换信息而发展起来的一种因特网(Intemet)应用。从应用诞生之日起,万维网中的信息量以几近爆炸式的速度增长,随之人们也进入了信息量
6、极大丰富的时代,互联网也因此逐渐成为人们获取所需资源和信息交流的主要场所。但是由于Intemet上信息的多样性和多变性,又给人们寻找所需信息带来了困难。万维网信息检索(WebInformationRetrieval)就成了一个非常重要而又十分困难的研究课题。这也是本文的研究目的所在。本章接下来的部分,将简要介绍一下论文研究的背景、意义及其在国内外的研究现状、研究内容、以及论文的组织结构。1.1课题研究的背景及意义为了解决这一难题,人们在信息检索领域进行了大量的研究,并开发出了各种搜索引擎(SearchEngines),其中既有大型的综合性搜索
7、引擎,也有在特定领域里发挥作用的专业搜索引擎,极大地方便了Intemet用户。但随着网络上数据的激增,搜索引擎也暴露出了许多不足,它越来越难以满足人们的需求。首先一个重要原因在于,搜索引擎的结果显示缺乏清晰的结构。搜索引擎得到的结果量非常巨大,然而显示结果却是一个线性列表(rankedlist),其中相关信息和无关信息混杂在一起,用户如果想要通过搜索引擎找到需要的信息则必须逐个浏览返回的查询结果,这样不仅会浪费很多时间,而且不一定能够准确地找到相关的资料。.另外,自然语言中广泛存在的“一义多词”(synonymy)和“一词多义”(homony
8、m)现象也给用户查询带来了困难,导致用户提出的关键字往往无法清楚地表达自己的需要。鉴于以上问题,研究者们将聚类分析引入到搜索引擎结果的处理中,对搜索引擎返回的结果进
此文档下载收益归作者所有