搜索引擎技术的研究与实现—元搜索引擎和文本聚类

搜索引擎技术的研究与实现—元搜索引擎和文本聚类

ID:26745871

大小:2.33 MB

页数:72页

时间:2018-11-29

搜索引擎技术的研究与实现—元搜索引擎和文本聚类_第1页
搜索引擎技术的研究与实现—元搜索引擎和文本聚类_第2页
搜索引擎技术的研究与实现—元搜索引擎和文本聚类_第3页
搜索引擎技术的研究与实现—元搜索引擎和文本聚类_第4页
搜索引擎技术的研究与实现—元搜索引擎和文本聚类_第5页
资源描述:

《搜索引擎技术的研究与实现—元搜索引擎和文本聚类》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、上海交通大学硕士学位论文搜索引擎技术的研究与实现—元搜索引擎和文本聚类姓名:丁宬杰申请学位级别:硕士专业:计算机应用指导教师:吴亚栋20061201上海交通大学硕士学位论文搜索引擎技术的研究与实现--元搜索引擎和文本聚类摘要信息检索(InformationRetrieval,IR)是从数据集中提取出相关文档和信息的过程,Web的出现改变了传统意义上信息检索的方式,信息检索的对象也逐渐从结构化向半结构化、无结构化的方向转变。随着互联网上信息数量的不断增长,传统的检索技术已经很难满足人们对查询质量的苛刻

2、要求。为了方便用户从搜索结果中快速、准确地定位自己想要的信息,集成文本聚类功能的搜索引擎应运而生。本文针对目前信息检索领域存在的相关问题,重点研究了搜索结果聚类算法和关键短语发现技术。文中提出了一个有效改善检索质量和检索效率的解决方案,并通过聚类方法自动组织搜索引擎的搜索结果,实现了一个集元搜索功能和聚类功能于一体的信息检索平台。它涵盖了Web文档收集、半结构化文档分析、信息聚类处理等方面内容,有效地增强了数据检索的实时性和准确性、改善了用户的使用体验。本文的创新点主要体现在以下几个方面:1.研究了

3、基于潜在语义的模糊聚类算法。通过在聚类算法中使用奇异值分解技术来发现文档集合中蕴含的抽象概念,有效地避免了数据噪音的干扰,缩短了计算时间,提高了系统的V上海交通大学硕士学位论文准确性和实时性。1.研究了基于后缀数组的关键短语发现算法,并利用它确定文档的特征值,构建聚类的描述信息。2.设计并实现了一个集元搜索功能和聚类功能于一体的信息检索平台,有效地改善了搜索引擎的检索质量,提高了用户的满意度。关键词:Web挖掘,元搜索引擎,自动文本分类,信息聚类VI上海交通大学硕士学位论文TheResearchan

4、dImplementofTheMetaSearchEngineandtheClusteringAlgorithmAbstractInformationretrievalfindsrelativedocumentsfromalargedataset.TheemergenceofWebchangesthewaypeopleusedtofindinformation;inthemeanwhile,semi-structuredatabecomesthedominatingresearchobjectofm

5、oderninformationretrievaltechniques.WiththefastgrowingoftheWeb,thetraditionalWebinformationretrievaltechniquescanhardlymeettherequirementoftheincreasinghighaccuratesearchingtasks.Fortunately,asearchenginewithclusteringfunctioncantheoreticallysolvethepr

6、oblemsbroughtbytheuplistingchallenges.Itnotonlyimprovesthewebsearchresulttoahighqualityandintelligentlevel,butalsoprovidespeopleaneasywaytoacquireinformationtheyneedmoreswiftlyandprecisely.Thismasterthesisinvestigatessomemodelsandalgorithmsinthepresent

7、Webinformationretrievalfields,especiallythekeyphrasefindingtechniquesandthesearchingresultclusteringalgorithms.Apartfromthat,wealsoprovideasolutiontoeffectivelyoptimizethesearchenginequalitybycombiningaclusteringenginewithaMetasearchingengine.Inadditio

8、n,basedonalltheabovefundamentalresearches,weimplementedaWebinformationretrievalprototype,whichintegratesVII上海交通大学硕士学位论文Webdocumentscollection,semi-structureddocumentsanalysisandclusteringprocessinone.Wehaveobtainedthesatisfyingresultacc

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。