计算网页权值的方法.doc

计算网页权值的方法.doc

ID:59599541

大小:15.00 KB

页数:4页

时间:2020-11-14

计算网页权值的方法.doc_第1页
计算网页权值的方法.doc_第2页
计算网页权值的方法.doc_第3页
计算网页权值的方法.doc_第4页
资源描述:

《计算网页权值的方法.doc》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、Web上的信息具有异质性和动态性,由于受时间和存褚空间的限制,即使是最大的搜索引擎也不可能将全球所有的网页全部搜集过来,一个好的搜集策略是优先搜集重要的网页,亦便能够在最短的时间内把最重要的网页抓取过来。在此要求下,一方面要采用分布并行的体系结构来协同工作,一方面要优先搜集重要的网页。  对于网页重要程度的评定,要依据搜集信息所针对的不同应用而定。从而信息的搜集可亦采用不同的策略。对于信息量相对较小的应用,如为发现专业信息而设计的主题Web信息搜集系统,可亦依据定制的要害词,优先搜集网页中包含或部分包含这些要害词的网页,通过

2、提高该跳页URL及包含的URL的权值来达到目的。对于为处理海量数据而设计的可扩展Web信息搜集系统,如何评定一个网页的重要度,目前还是一个值得研究探讨的问题。  根据搜集经验,体现网页重要度的特征有:  1)网页的入度大,表明被其他网页引用的次数多;  2)某网页的父网页入度大;  3)网页的镜像度高,说明网页内容比较热门,从而显得重要;  4)网页的目录深度小,易于用户浏览到。  这里定义URL目录深度为:网页URL中除去域名部分的目录层次,即URL=schema://host/localpath中的localpath部分

3、。如:URL为  这样的特征并非臆断,而是从长期从事搜索引擎工作中得来的,如:重要的学术论文网页,因为经常被引用,就表现为入度大;如果被重要的网页引用或多次被其他站点镜像,也可被认为有价值、重要;如网页URL目录深度浅,说明位于网站浅层,通常是被编辑网页的人认为重要而放在易于访问到的地方,网站的主页或各板块的首页一般被经常浏览而显得重要。  需要说明的是,URL目录深度小的网页并非总是重要的,目录深度大的网页也并非全不重要,有些学术论文的网页URL就有很长的目录深度。多数重要度高的网页会同时具有上述4个特征,即上述表示重要度

4、特征的因素并非独立无关的。  网页的权重可亦形式化表示为  weight(p)=f(indegree(p)indegree(father_p)mirror(p)directorydepth(p))  其中weight(p)表示网页p的权重,indegree(p)表示网页p的入度函数,indegree(fatherp)表示网页p的父网页的入度函数,mirror(p)表示网页p的镜像度函数,directorydepth(p)表示网页p的目录深度函数。  如果能够综合利用或部分利用上述特征,可亦认为是重要的。但是如何肯定每一个特征

5、量的影响因子却很困难。如果定义的不好,反倒会影响重要网页的发现。是否有简单的方法来肯定重要的网页呢?不妨先来分析一下网页的分布情况。  整个Web就象一个深不见底的海洋,表层包含的主要是静态网页(不通过提交查询信息即可获得的页面),底层包含的主要是动态网页(需要通过提交查询信息获得含有内容的网页)。目前搜索引擎的工作主要集中在表层工作。在表层中重要网页的分布或者更接近于海面,或者更接近于底层。对于网页的搜集工作,就象一条捕鱼的船行驶在海面上,目的是洒网捕捉尽可能多而且重要的网页。对于重要网页的获取,人为的策略干预难免会有疏漏

6、,因此不妨考虑如何尽可能多的获得包含重要URL的网页问题。实际搜集网页经验说明,网站的首页是飘浮在海面上的,网站数目远小于网页数,并且重要的网页也必然是从这些网站首页链接过去的,因此搜集工作应当优先获得尽可能多的网站首页。由此不难想象宽度优先搜集是尽快获得重要网页最好的办法。采用宽度优先搜集最直接有效的方法就是根据网页URL的目录深度肯定优先级,这是一个既客观又容易获得的信息。  搜索引擎开始工作时,既不知道要搜的网页入度大小(即不知道要访问的网页URL被哪些其他网页指向),也不知道网页内容是什么,所亦对于表征网页重要性的第

7、1、2、3项特征在搜集工作开始时无法肯定。这些因素只能在获得跳页或几乎所有的Web链接结构之后才能够知道。只有特征4是不需要知道网页的内容(没有抓取网页之前)就可亦肯定某个URL是否符合重要的标准,而且网页URL目录深度的计算就是对字符串的处理,统计结果表明一般的URL长度都小于256个字符,这使得URL目录深度的判别易于实现。所亦对于搜集策略的肯定,特征4是最值得考虑的指导因素,特征4具有局限性,所亦首先探讨它对于决定网页重要度到底有多大的影响,采取什么样的措施能够尽量避免这种局限性带来的片面搜集,从而对搜集策略做出有效的

8、调整。  亦目录深度评估网页重要度,辅亦下述的方法,可亦达到比较好的搜集效果。  1)URL权值的设定:根据URL的目录深度来定,深度是多少,权值就减少多少,权值最小为零。  2)设定URL初始权值为10(此值设定的越小,从未访问URL集合中排序输出就越快。但是也不能太小,否则URL的权值

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。