欢迎来到天天文库
浏览记录
ID:35153535
大小:972.37 KB
页数:35页
时间:2019-03-20
《浅议搜索引擎技术中的web结构挖掘算法研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、山西大学硕士学位论文搜索引擎技术中的Web结构挖掘算法研究姓名:陈鑫卿申请学位级别:硕士专业:计算机应用技术指导教师:张永奎20030601摘要今天。人们寻找ww上的信息,通常是在搜索引擎上执行一个查向。很多搜索引擎是基于关键词的,对于每一个查询.他们返回一个与查询内容匹配的Web网页的序列。对于宽话题查询,这样的搜索引擎经常得到一个较大的含有相关文档的集合,这些文档大多数是用户不感兴趣的。然而,Web网页中存在着丰富的超链接结构信息,利用web结构挖掘技术可以从中挖掘出有用的信息来改进搜索引擎技术。在这种情
2、况下,JonKleinberg(在他的论文Authoritativesourcesinahyperlinkedenvironment)介绍了F面的概念:1权威网页——包含与查询匹配的网页中摄具有权威性的网页的一个小的子集,该集合中的网页有很多入链接。2.枢纽页——那些指向多个权威网页的网页。Kleinberg认为权威和枢纽之间有一种相互加强的关系:好的枢纽指向好的权威,而好的权威被好的枢纽所指向,并根据这种关系设计了一种计算权威网页的Hub/authority算法。8rin和Page也提出了Page—rank
3、算法,并将它应用于搜索引擎geogle。但是,上述的两种算法还存在一定的不足,文章通过对这两个算法进行分析(研究他们的共性及不足)提出了~种更为一般的计算权威网页的算法;同时还定义了一部分概念用于对这些算法进行评价:最后将新提出的发现权威网页的算法和Hub/authority算法在人一E拓扑上和局域网上进行了试验并对实验结果做TLg较,得出了该算法在发现权威网页时比Hub/authority算法好。关键字:Web挖掘Web结构挖掘搜索引擎权威枢纽ABSTRACTToday,whensearchingforin
4、formationontheW曲.oneusuallyperformsaquerythroughasearchen百ne.Manysearchengineareterm-based,andreturn,alistofWebpageswhosecontentmatchthequery.Forwidetopicqueries,suchsearchesoftenresultinahugesetofretrieveddocuments,ManyofwhichareirrelevanttotheuseLHowever,
5、muchinformationiscontainedinthelink-structureoftheWrebpages.fromwhichpeoplecanfmdmuchuseableinformationthroughWebstructureminingtechnology.ThoseinformationCallbeusedtoenhancethesearchenginetechnology.Inthiscontext,JonM.Kleinberg(inhispaperAuthoritativeSOUd'
6、CeSinahyperlinkedenvironment)introducedthefollowingnotions:1.Authoritativepager—Asmallsubsetcontainingthemostpageswhichmatchthequeryandwhichauthoritative.Pagesinthissubsethavemanyincoming1inks.2.Hubpages--Pageswhichhavelinkstomultipleauthoritativepages,Klei
7、nbergarguedthathubsandauthoritiesexhibitamutuallyreinforcingrelationshipagoodhubwillpointtomanyauthorities,andagoodauthoritywillbepointedatbymanyhubs.Inlightofthis,hedevisedallalgorismaimedatfindingauthoritativewebpages.BrinandPagealsodevisedthePage—rankalg
8、orism,andusethisalgorismtothesearchenginegoogle.Butthosetwoalgorismshavesomedeficiency.Throughanalyzingthem(researchtheircommonnessanddeficiency),devisedageneralalgorismtofindauthoritative.Then.wedefin
此文档下载收益归作者所有