欢迎来到天天文库
浏览记录
ID:33165962
大小:964.95 KB
页数:37页
时间:2019-02-21
《基于数据挖掘的web权威页面搜索》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、中山大学硕士学位论文基于数据挖掘的Web权威页面搜索姓名:曹王华申请学位级别:硕士专业:计算机软件与理论指导教师:印鉴20040508萆于数据挖掘的Web权威页面搜索基于数据挖掘的Web权威页面搜索计算机软件与理论曹王华印鉴教授摘要当在因特网上搜索信息时,通常会使用基于分词的搜索引擎。这些搜索引擎返回内容与检索相匹配的网页集合作为检索结果。对于主题广泛的检索,返回结果往往包含大量与我们需求无关的数据。论文详细描述了一个所设计的搜索引擎结构框架,介绍了两种链接分析算法,然后针对目前这两种链接分析算法的不足,提出了一个改
2、进算法。最后建立了一个测试用的搜索引擎,并使用抓取的网页对算法进行了详尽的检索对比,实验结果表明改进的算法在准确性方面比经典算法有很大的提高。【关键词】权威页面、搜索引擎、链接分析、数据挖掘苎主塑塑堡塑塑鉴!壑壁壅查丝墨AuthoritativeWebPageSearchingBaseOnDataMiningComputerScienceCaowanghuaYinjianABSTRACTToday,whensearchingforinformationontheinternet,weusuallyperformsaq
3、uerythroughaterm—basesearchengine.ThesesearchenginereturnalistofWebsiteswhosecontentsmatchesthequeryasthequery’Sresult.Butforbroadtopicqueries,suchsearchesoftenresultinhugesetofretrieveddocuments,manyofwhichareirrelevanttotheUS.Inthispaper,first,wedescribethefr
4、ameworkofasearchenginedesignbyUS,andintroducingtwolinkstructureanalysisalgorithms.Second,wepointOUttheshortcomingofthealgorithmsforanalysisinglinkstructure.Toovercometheshortcomingwedescribeanewimprovedalgorithm.Thenwebuiltupasearchengineandt,tseittocomparethei
5、mprovedalgorithmstotheold.Ourexamshowthattheimprovedalgorithmsismoreaccuratethantheold.keywords:Authorities,searchengine,linkanalysis,dataminingII基十数据挖掘的Web权威页向搜索丹IJ吾我们现在已经生活在一个网络化的时代,通信、计算机和网络技术正在改变整个人类和社会。一方面,随着信息技术的发展,人们从网络上获取的数据越来越多。让我们来看一些身边俯拾即是的现象:门户网站Yah
6、oo由最初的1000多个网页扩张至现在的近百万的网页;中国门户网站新浪的网页也已经达到数十万个。然而在现实社会中,人均日浏览阅读时间通常为30~45分钟,只能浏览一个或者两个的门户网站。大量信息在给人们带来方便的同时也带来了~大堆问题:第一是信息过量,难以消化;第二是信息真假难以辨识;第三是信息安全难以保证。人们开始提出一个新的口号:“要学会抛弃信息”。人们开始考虑:“如何才能不被网络上的信息淹没,而是从中快捷、准确的找出有用的信息、提高信息利用率?”另一方面,随着因特网技术的迅速发展以及Web网站的广泛应用,人们积
7、累的网页数据越来越多。激增的数据背后隐藏着许多重要的信息,人们希望能够对其进行多层次的分析,以便更好地利用这些数据。目前因特网上的搜索引擎可以提供基于关键词的检索、查询、统计等功能,但无法智能化的根据检索关键词找出网页数据中与该关键词关系最紧密的部分。缺乏对网页结构结合网页内容乃至结合网页日志的综合检索预处理的手段,导致了“检索只能得到形似而神不似”的现象。面对这一挑战,包含数据挖掘的Web权威页面搜索引擎技术应运而生,并显示出强大的生命力。搜索引擎一面世就以其强大的实用性得到了人们的认同。世界上数以亿计的网民都在通
8、过搜索引擎查找自己需要的信息,著名的搜索引擎Google的访问量更是惊人。这些搜索引擎提供的服务极大提高了人们在因特网上查找信息的效率。为人们的网上信息获取带来了极大的便利。虽然搜索引擎技术已被广泛接受,但如何提高搜索引擎的检索准确性,使得搜索引擎工作的更有效率,如何针对现实问题改进搜索引擎技术仍然有待我们去深入研究。尤其是如何将Web数据挖掘
此文档下载收益归作者所有