Web数据挖掘研究

Web数据挖掘研究

ID:47630234

大小:159.59 KB

页数:17页

时间:2019-09-27

Web数据挖掘研究_第1页
Web数据挖掘研究_第2页
Web数据挖掘研究_第3页
Web数据挖掘研究_第4页
Web数据挖掘研究_第5页
资源描述:

《Web数据挖掘研究》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、押<1器喲上舅数据仓库技术在学生成绩管理中的应用课程名称数据仓库与数据挖掘院(系)计算机学院软件学院专业计算机科学与技术指导老师Web挖掘研究摘要因特网目前是一个巨大、分布广泛、全球性的信息服务中心,它涉及新闻、广告、消费信息、金融管理、教育、政府、电子商务和许多其它信息服务.Web包含了丰富和动态的超链接信息,以及Web页面的访问和使用信息,这为数据挖掘提供了丰富的资源.Web挖掘就是从Web文档和Web活动中抽取感兴趣的潜在的有用模式和隐藏的信息•对Web挖掘最新技术及发展方向做了金而分析,包括Web结构挖掘、多层次Web数据仓库方法

2、以及WebLog挖掘等.关键词数据挖掘,Web挖掘,Web仓库、WebLog挖掘,Web使用记录挖掘RESEARCHONWEBMINING:ASURVEYAbstractTheWorldWideWebservesashuge,widelydistributed,globalinformationservicecenterforvariousapplications.WebcontainsarichanddynamiccollectionofhyperlinkinfonnaXionandWebpageaccessandusageinfonn

3、eition,providingrichsourcesfordatamining.ThegoalofWebminingistodiscovertheaccesspattcTnandhiddeninformationfTomthehugecollectionofdocumentsplushyperlinkinformation,accessandusageinformation.GiveninthispaperisanoverviewofWebminingtechniquesandnewtrends,mainlyinvolvingWebSt

4、ructuremining,amultilayeredWebinformationbasebui1ding,andWebLogmining.Keywordsdatamining,Webmining,Webwarehouse,WebLogmining,Webueagemining1引言60年代,大的物理流伴随着大信息流•传统的文件方式不能适应信息处理的需求,因此出现了数据库技术.90年代,人类积累的数据量以高于每月15%(或每年5.3倍)的速度增加,数据海洋不能产生决策意志,为了进行决策,人们不断地扩大数据库能力,搜集海量数据,但这使得决策

5、者更难于决策,因此出现了数据挖掘技术,以便从数据库中发现知识•数据挖掘技术包括特征、分类、关联、聚类、偏塞时间序列、趋势分析等.近年來,Internet正以令人难以置信的速度在飞速发展,越來越多的机构、

6、才

7、体和个人在Internet上发布信息、查找信息.虽然Internet上有海量的数据但由于Web是无结构的、动态的,并且Web页面的复朵程度远远超过了文本文档,人们耍想找到自己想耍的数据犹如人海捞针一般•信息检索界开发了许多搜索引擎,但其覆盖率有限,因此查全率低,一般的搜索引擎是基于关键字的查询,命中率较低,另外不能针对特定的用户给出特

8、殊的服务,因为每个人感兴趣的东西是不一样的,因此不具有个性化.解决这些问题的一个途径,就是将传统的数据挖掘技术和Web结合起來,进行Web挖掘.Web挖掘就是从Web文档和Web活动川抽取感兴趣的潜在的有用模式和隐藏的信息・Web挖掘可以在很多方面发挥作用,如对搜索引擎的结构进行挖掘,确定权威页面,Web文档分类,WebLog挖掘,智能查询,建立Meta-Web数据仓库等.万维网目前是一个巨大、分布广泛、全球性的信息服务中心,它涉及新闻、广告、消费信息、金融管理、教育、政府、电子商务和许多其它信息服务.Web还包含了丰富和动态的超链接信息

9、,以及Web页面的访问和使用信息,这为数据挖掘提供了丰富的资源•然而从以下的分析可以看岀对Web进行有效的资源和知识发现具有极大的挑战性.对有效的数据仓库和数据挖掘而言Web似乎太庞大了・Web的数据量目前以兆兆字节(terabytes)ik算,而且仍然在迅速地增长.许多机构和社团都在把各自大量的可访问信息置于网上•这使得儿乎不可能去构造一个数据仓库来复制、存储或集成Web上的所有数据•最近,有一些工作在致力于存储或集成Web上的所有数据•例如,在http://www.archive,org/indexl.html下,可访问到一个巨大的数

10、十兆兆字节的因特网存档.(1)Web页面的复杂性高于任何传统的文木文档.Web页面缺乏同一的结构,它包含了远比任何一组书籍或其它文本文档多得多的风格和内容.Web可以看做一个巨大的数字图书馆;

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。