欢迎来到天天文库
浏览记录
ID:26745871
大小:2.33 MB
页数:72页
时间:2018-11-29
《搜索引擎技术的研究与实现—元搜索引擎和文本聚类》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、上海交通大学硕士学位论文搜索引擎技术的研究与实现—元搜索引擎和文本聚类姓名:丁宬杰申请学位级别:硕士专业:计算机应用指导教师:吴亚栋20061201上海交通大学硕士学位论文搜索引擎技术的研究与实现--元搜索引擎和文本聚类摘要信息检索(InformationRetrieval,IR)是从数据集中提取出相关文档和信息的过程,Web的出现改变了传统意义上信息检索的方式,信息检索的对象也逐渐从结构化向半结构化、无结构化的方向转变。随着互联网上信息数量的不断增长,传统的检索技术已经很难满足人们对查询质量的苛刻
2、要求。为了方便用户从搜索结果中快速、准确地定位自己想要的信息,集成文本聚类功能的搜索引擎应运而生。本文针对目前信息检索领域存在的相关问题,重点研究了搜索结果聚类算法和关键短语发现技术。文中提出了一个有效改善检索质量和检索效率的解决方案,并通过聚类方法自动组织搜索引擎的搜索结果,实现了一个集元搜索功能和聚类功能于一体的信息检索平台。它涵盖了Web文档收集、半结构化文档分析、信息聚类处理等方面内容,有效地增强了数据检索的实时性和准确性、改善了用户的使用体验。本文的创新点主要体现在以下几个方面:1.研究了
3、基于潜在语义的模糊聚类算法。通过在聚类算法中使用奇异值分解技术来发现文档集合中蕴含的抽象概念,有效地避免了数据噪音的干扰,缩短了计算时间,提高了系统的V上海交通大学硕士学位论文准确性和实时性。1.研究了基于后缀数组的关键短语发现算法,并利用它确定文档的特征值,构建聚类的描述信息。2.设计并实现了一个集元搜索功能和聚类功能于一体的信息检索平台,有效地改善了搜索引擎的检索质量,提高了用户的满意度。关键词:Web挖掘,元搜索引擎,自动文本分类,信息聚类VI上海交通大学硕士学位论文TheResearchan
4、dImplementofTheMetaSearchEngineandtheClusteringAlgorithmAbstractInformationretrievalfindsrelativedocumentsfromalargedataset.TheemergenceofWebchangesthewaypeopleusedtofindinformation;inthemeanwhile,semi-structuredatabecomesthedominatingresearchobjectofm
5、oderninformationretrievaltechniques.WiththefastgrowingoftheWeb,thetraditionalWebinformationretrievaltechniquescanhardlymeettherequirementoftheincreasinghighaccuratesearchingtasks.Fortunately,asearchenginewithclusteringfunctioncantheoreticallysolvethepr
6、oblemsbroughtbytheuplistingchallenges.Itnotonlyimprovesthewebsearchresulttoahighqualityandintelligentlevel,butalsoprovidespeopleaneasywaytoacquireinformationtheyneedmoreswiftlyandprecisely.Thismasterthesisinvestigatessomemodelsandalgorithmsinthepresent
7、Webinformationretrievalfields,especiallythekeyphrasefindingtechniquesandthesearchingresultclusteringalgorithms.Apartfromthat,wealsoprovideasolutiontoeffectivelyoptimizethesearchenginequalitybycombiningaclusteringenginewithaMetasearchingengine.Inadditio
8、n,basedonalltheabovefundamentalresearches,weimplementedaWebinformationretrievalprototype,whichintegratesVII上海交通大学硕士学位论文Webdocumentscollection,semi-structureddocumentsanalysisandclusteringprocessinone.Wehaveobtainedthesatisfyingresultacc
此文档下载收益归作者所有