基于链接结构的web权威资源挖掘算法-研究

基于链接结构的web权威资源挖掘算法-研究

ID:33695054

大小:2.56 MB

页数:76页

时间:2019-02-28

基于链接结构的web权威资源挖掘算法-研究_第1页
基于链接结构的web权威资源挖掘算法-研究_第2页
基于链接结构的web权威资源挖掘算法-研究_第3页
基于链接结构的web权威资源挖掘算法-研究_第4页
基于链接结构的web权威资源挖掘算法-研究_第5页
资源描述:

《基于链接结构的web权威资源挖掘算法-研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、硕士学位论文附表索引表1.1WEB内容挖掘结构挖掘和日志挖掘相关比较⋯.表3.1四节点分值比较.................⋯......表3.2复杂的四节点分值比较.........⋯⋯.....表3.3五节点分值比较,........⋯.⋯..⋯..⋯表4.1两种方法发现社团的相关情况......⋯..⋯.表4.2基于主题JAVA的试验比较..................表4.3第11个主题健康........⋯.⋯..⋯.....表5.1测试数据集的基本信息..⋯.....⋯....⋯表5

2、.2数据清理后的一些统计结果⋯.............表5.3合并阀值为0.75的基于体积的聚类分布.⋯..表5.4不同的相似度阀值下最终的聚类结果....⋯..表5.5不同的查询主题相应的聚类结果.............V_眈北躺觇弱鹃∞∞∞阻舛湖南大学学位论文原创性声明本人郑重声明:所呈交的论文是本人在导师的指导下独立进行研究所取得的研究成果。除了文中特别加以标注引用的内容外,本论文不包含任何其他个人或集体已经发表或撰写的成果作品。对本文的研究做出重要贡献的个人和集体,均己在文中以明确方式标明。

3、本人完全意识到本声明盼法律后果由本人承担。作者签名:街搁审隰脚夕月22目学位论文版权使用授权书本学位论文作者完全了解学校有关保留、使用学位论文的规定,同意学校保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅。本人授权湖南大学可以将本学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。本学位论文属于l、保密口,在年解密后适用本授权书。2、不保密团。(请在以上相应方框内打“4”)作者签名:导师签名:日期:知胩户月加日期:允r年F月、

4、z目硕士学位论文第1章绪论现代的人类已经处于一个信息极度丰富的时代,人们可以从各种各样的传播媒体获得信息,如报纸、电视、杂志、万维网等,近几年万维网已经成为一个巨大的、分布广泛的和全球性的信息服务中心逐渐渗透到人们的日常生活,它为用户提供了所能想到的各种信息资源,然而,面对复杂而庞大的万维网,多数用户往往觉得力不从心。如何有效的分析用户的需求,依据用户的需求帮助用户从因特网的信息海洋中发现他们所要寻找或者感兴趣的资源,已经成为一项迫切而重要的课题。1.1.1lnternet的发展与Web资源www(wo

5、rldWideWeb,即万维网,简称Web)自1993年问世以来,短短数10年的时问已经遍布世界各地。Web提供了大量的信息资源,几乎涉及人们所能想象的所有主题,可以说是世界上最大的电予信息仓库。Internet的发展也使得网络用户和Web信息的数量以惊人的速度增氏。1998年7月Intemet协会(http://www.isoc.org)年会报告称,世界}:250个国家中有240个提供Internet上网服务;Internet软件协会(http://www.isc.org)的最新统计表明,到2004年

6、1月,web主机的数量已超过一亿五千万台。据comScore(http://www.comscore.corn)的最新统计报告,截至2004年5月14目,全球已逾3亿5千万用户使用Internet。Web为人们提供越来越多信息的同时,其结构也变得更加复杂,基于以卜I几方面的分析,web对有效的资源和知识发现还是具有极大的挑战性m。·对有效的数据挖掘而言,Web数据量太庞大了。Web是一个大而复杂的异构数据环境,若将Web上每一站点看做是数据源,每个数据源都是异构的,各站点间的信息和组织都不一样,如果想利

7、用这些数据进行数据挖掘,那么必须研究站点之间异构数据的集成问题。这是对数据进行分析、处理的基础。Web的数据量目前以几百兆兆字节计算,而且仍然在迅速地增长。许多机构和社团都把各自大量的可访问信息置于网上。这使得几乎1i可能去构造一个数据库对Web上的所有数据进行复制、存储或集成。●Web页面的复杂性远比任何传统的文本文档复杂得多。Web页面缺乏基于链接结构的web权威资源挖掘算法研究统一的结构,它包含了远比任何一组书籍或其它文本文档多得多的风格和内容。Web可以看作是一个巨大的数字图书馆;然而,这一图书

8、馆中的大量文档并不根据任何有关排列次序加以组织。它没有分类索引,更没有建立按标题、作者、封面页、目次等索引。在这样一个图书馆中搜索希望得到信息是极具挑战性的。OWeb是一个动态性极强的信息源。Web不仅以极快地速度增长,而且其信息还在不断地发生着更新。新闻、股票市场、公司广告和Web服务中心都在不断地更新各自的页面。链接信息和访问记录也在频繁地更新之中。OWeb面对的是一个广泛的、形形色色的用户群体。根据comScore的最新统计报告(ht

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。