浅议搜索引擎技术中的web结构挖掘算法研究

浅议搜索引擎技术中的web结构挖掘算法研究

ID:35153535

大小:972.37 KB

页数:35页

时间:2019-03-20

浅议搜索引擎技术中的web结构挖掘算法研究_第1页
浅议搜索引擎技术中的web结构挖掘算法研究_第2页
浅议搜索引擎技术中的web结构挖掘算法研究_第3页
浅议搜索引擎技术中的web结构挖掘算法研究_第4页
浅议搜索引擎技术中的web结构挖掘算法研究_第5页
资源描述:

《浅议搜索引擎技术中的web结构挖掘算法研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、山西大学硕士学位论文搜索引擎技术中的Web结构挖掘算法研究姓名:陈鑫卿申请学位级别:硕士专业:计算机应用技术指导教师:张永奎20030601摘要今天。人们寻找ww上的信息,通常是在搜索引擎上执行一个查向。很多搜索引擎是基于关键词的,对于每一个查询.他们返回一个与查询内容匹配的Web网页的序列。对于宽话题查询,这样的搜索引擎经常得到一个较大的含有相关文档的集合,这些文档大多数是用户不感兴趣的。然而,Web网页中存在着丰富的超链接结构信息,利用web结构挖掘技术可以从中挖掘出有用的信息来改进搜索引擎技术。在这种情

2、况下,JonKleinberg(在他的论文Authoritativesourcesinahyperlinkedenvironment)介绍了F面的概念:1权威网页——包含与查询匹配的网页中摄具有权威性的网页的一个小的子集,该集合中的网页有很多入链接。2.枢纽页——那些指向多个权威网页的网页。Kleinberg认为权威和枢纽之间有一种相互加强的关系:好的枢纽指向好的权威,而好的权威被好的枢纽所指向,并根据这种关系设计了一种计算权威网页的Hub/authority算法。8rin和Page也提出了Page—rank

3、算法,并将它应用于搜索引擎geogle。但是,上述的两种算法还存在一定的不足,文章通过对这两个算法进行分析(研究他们的共性及不足)提出了~种更为一般的计算权威网页的算法;同时还定义了一部分概念用于对这些算法进行评价:最后将新提出的发现权威网页的算法和Hub/authority算法在人一E拓扑上和局域网上进行了试验并对实验结果做TLg较,得出了该算法在发现权威网页时比Hub/authority算法好。关键字:Web挖掘Web结构挖掘搜索引擎权威枢纽ABSTRACTToday,whensearchingforin

4、formationontheW曲.oneusuallyperformsaquerythroughasearchen百ne.Manysearchengineareterm-based,andreturn,alistofWebpageswhosecontentmatchthequery.Forwidetopicqueries,suchsearchesoftenresultinahugesetofretrieveddocuments,ManyofwhichareirrelevanttotheuseLHowever,

5、muchinformationiscontainedinthelink-structureoftheWrebpages.fromwhichpeoplecanfmdmuchuseableinformationthroughWebstructureminingtechnology.ThoseinformationCallbeusedtoenhancethesearchenginetechnology.Inthiscontext,JonM.Kleinberg(inhispaperAuthoritativeSOUd'

6、CeSinahyperlinkedenvironment)introducedthefollowingnotions:1.Authoritativepager—Asmallsubsetcontainingthemostpageswhichmatchthequeryandwhichauthoritative.Pagesinthissubsethavemanyincoming1inks.2.Hubpages--Pageswhichhavelinkstomultipleauthoritativepages,Klei

7、nbergarguedthathubsandauthoritiesexhibitamutuallyreinforcingrelationshipagoodhubwillpointtomanyauthorities,andagoodauthoritywillbepointedatbymanyhubs.Inlightofthis,hedevisedallalgorismaimedatfindingauthoritativewebpages.BrinandPagealsodevisedthePage—rankalg

8、orism,andusethisalgorismtothesearchenginegoogle.Butthosetwoalgorismshavesomedeficiency.Throughanalyzingthem(researchtheircommonnessanddeficiency),devisedageneralalgorismtofindauthoritative.Then.wedefin

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。