web上信息就像一条河流

ID：10083981

大小：647.00 KB

页数：51页

时间：2018-05-24

资源描述：

《web上信息就像一条河流》由会员上传分享，免费在线阅读，更多相关内容在行业资料-天天文库。

1、北京大学硕士学位论文Web数据模型以及获取、存储方法研究摘　要Web上信息就像一条河流，从我们身边不停流过。已经有很多人认识到这些信息的价值，从而展开了对Web信息多方面的研究。本文阐述的内容就是基于这些研究，并希望能够对他人的相关工作带来方便。文章围绕的中心是Web数据的高效获取与存储，为此也专门研究了信息在Web上大量重复出现的现象和原因。本文的主要内容包括：(1)有关Web信息状况的一些统计数据，结合一些Web的基本概念，这些数据让读者对Web宏观上能有一些具体的认识。这是理解本文其他部分的基础，(2)提出了同义主机的概念。在Web上有很多不同的域名代表着相同的

2、主机，负责获取网页的系统如果不知道这种信息，就会重复的获取这台主机上的网页。这样导致网络资源和机器资源的浪费，并且对相应的Web服务器也造成额外负担，本文通过分析IP地址与域名的关系，总结出哪些主机名有同义关系，从而避免了网页的重复获取；另外，对于消除Web上存在的重复或相似的网页，本文提出了多种算法，一一进行评测，并选择最好的用于实际的网页消重中。(3)本文还具体的讨论了Web数据获取系统的设计目标，并给出了计算系统效率的方法。然后参照这些设计目标，比较了两种具体的收集系统结构。(4)同时，论文还基于WebInfoMall的目标，给出了一种海量网页存储系统的设计方案

3、以及实现的种种考虑。关键词：Web，网页搜集系统，同义主机，重复网页，网上信息博物馆47北京大学硕士学位论文Web数据模型以及获取、存储方法研究AbstractWebislikeariverofinformation,flowingbyusendlessly.Nowpeoplebegantoappreciateitsvalue,andresearchit.Thisthesisisbasedonsuchresearches.Itfocuseshowtocollectmasswebpagesandhowtostorethem,aswellassomecharacteris

4、ticsofWebinvolvinggettingandstoringdata.Thefollowingissuesareaddressed:1．SomestatisticinformationandbasicconceptsaboutWeb.Theywillbeusefulforreadersinunderstandingfollowingsections.2．Itisaphenomenathatmanyphysicalhosts(servers)havemorethanonenamesrepresentingthemontheweb.IfaWebcrawleris

5、notawareofsuchinformation,thepagesonthesamehostwillberetrievedmultipletimes.Asaresult,crawlers’workingiswasted,morebandwidthisconsumed,andwecanevenoverloadthewebservers.ThisthesisanalyzestherelationbetweenIPaddressesanddomainnamesandtheresultgivesacrawlerindicationwhichhostnamesactually

6、representthesamehost,socrawlingthesamepagemultipletimescanbeavoided.TogetridofreplicaorsimilarpagesobtainedfromtheWeb,thisthesisproposesafewmethods,andtheyareevaluatedcarefully.3．Webdataretrievingsystem,socalledcrawlerisdiscussedinmoredetail.Somebasicdesignguidelinesandperformancemetric

7、sispresented.Wecomparetwostructuresofcrawleraccordingtheseguidelines.4．Attheendofthisthesis,WebInfomall,arealmassivewebdatastoragesystemispresented.Keywords:Web,Crawler,synonymoushost,replicawebpage,WebInfomall47北京大学硕士学位论文Web数据模型以及获取、存储方法研究目　录第一章绪　论11.1研究背景11.1.1Web内容11.1.2Web链

当前文档最多预览五页，下载文档查看全文

侵权申诉



1 1 2 3 4 5 / 51



此文档下载收益归作者所有

当前文档最多预览五页，下载文档查看全文

温馨提示：
1. 部分包含数学公式或PPT动画的文件，查看预览时可能会显示错乱或异常，文件下载后无此问题，请放心下载。
2. 本文档由用户上传，版权归属用户，天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容，确认文档内容符合您的需求后进行下载，若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误，付费完成后未能成功下载的用户请联系客服处理。

web上信息就像一条河流

web上信息就像一条河流

相关文章

相关标签