基于web数据挖掘的探索

基于web数据挖掘的探索

ID:10096004

大小:29.50 KB

页数:7页

时间:2018-05-25

基于web数据挖掘的探索_第1页
基于web数据挖掘的探索_第2页
基于web数据挖掘的探索_第3页
基于web数据挖掘的探索_第4页
基于web数据挖掘的探索_第5页
资源描述:

《基于web数据挖掘的探索》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、基于Web数据挖掘的探索【摘要】随着互联网的快速发展,Web数据挖掘已经成为当今热门的研究主题。本文介绍了Web数据挖掘的基本概念、Web数据的特点及其Web数据挖掘分类,并对Web数据挖掘技术的研究进行讨论。利用Apriori算法发现频繁集,找到页面间的关联规则。针对网页超链接结构的特点:一条超链接只能建立在两个网页上,发现频繁集只要找出所有2-项集即可,从而提出网页超链接挖掘的NApriori算法。NApriori算法显著提高了Apriori算法的效率。【关键词】数据挖掘;Web挖掘;挖掘技术;挖掘算法1.引言随着Int

2、ernet的快速普及和迅猛发展,基于Internet各种应用也迅速的发展起来,例如网络教育、网上银行、电子商务、网络广告等。Internet将成为人类生活不可缺少的一部分。在Internet给人们生活带来方便的同时,它也给我们带来了新的问题与挑战。7它使得Web上的信息量以惊人的速度增长,随之而来的问题是庞大的数据使人难以消化,如何从大量的数据中获取我们所需的数据和信息,这些问题急于需要我们解决,而解决这种需求的一个有利的手段就是Web数据挖掘,Web挖掘是使我们不至于在数据的汪洋中迷失方向的新技术。因此,Web挖掘技术应运

3、而生。2.Web数据的特点WWW目前是一个巨大的、分布广泛的和全球性的信息服务中心,它涉及体育、新闻、广告、消费信息、金融管理、教育、政府、电子商务和许多其他信息服务。其有自身特有的性质与要求,包括以下几点:(1)对有效的数据仓库和数据挖掘,Web太庞大,Web的数据量以兆字节计算,而且仍在迅速地增长,这就要求Web挖掘方法在对大数据集进行挖掘时依然具有高效率;(2)Web页面的复杂性远比任何传统的文本文档大。Web页面缺乏统一的结构,它包含了远比任何一组书籍或其他文本文档多的风格和内容,这就需要Web挖掘系统具有一定的智能

4、性和学习机制,不断地跟踪用户的检索需求以挖掘出正确的结果。3.Web数据挖掘分类Web数据挖掘是用数据挖掘技术在Web文档和服务器中自动发现和提取感兴趣的、有用的模式和隐含的信息。按照挖掘对象的不同,可以将Web挖掘分为三大类:Web内容挖掘、Web结构挖掘和Web使用挖掘。3.1Web内容挖掘7Web内容挖掘是对Web页面内容进行挖掘,是从大量的Web数据中发现信息、提取知识的过程。这些数据既有文本数据,也有视频、音频、图片等多媒体数据。就其数据库方法而言,把半结构化的Web信息重构变更成结构化内容,然后就可以使用标准化的

5、数据库查询机制和挖掘方法进行分析。3.2Web结构挖掘Web结构挖掘的对象是Web本身的超连接,即对Web文档的结构进行挖掘。Web可以看成一个以网页为节点、链接为边的图结构,超链接反映了网页间的包含、引用或从属关系。通过挖掘Web的结构信息,可以揭示许多蕴涵在Web内容之外的隐含的有用信息。3.3Web使用(Usage)挖掘通过挖掘Web日志记录,发现用户访问Web页面的模式。分析和探索Web日志记录中的规律,可以识别电子商务的潜在客户,增强对最终用户的因特网信息服务的质量和交付,并改进Web服务器系统性能。基于URL、时

6、间、IP、Web页面内容信息,可以对Web日志数据库构造多维试图,进行OLAP分析,找出头N个访问页面,最频繁访问时间周期等等,这有助于发现潜在客户、用户、市场等等;可以对Web日志进行数据挖掘,找出关联模式、序列模式和Web访问趋势等。4.Web数据挖掘技术实现7Web数据挖掘中常用的技术通常可以分为两类:一类是建立一种以机器学习为主的人工智能模型,采用的方法有神经网络、自然法则计算方法和Web特有的路径分析技术等。另一类是是建立在统计模型的基础上,采用的技术有决策树、分类、聚类、关联规则等。4.1序列模式挖掘技术序列模式

7、挖掘技术就是要挖掘出交易集之间的有时间序列的模式。经过数据净化和交易确定后是一个间断的时间序列,这些序列所反映的用户行为有助于商家印证其产品所处的生命周期阶段。另外挖掘出来的一些暂时性的序列模式,可以分析企业战略实施或网站、产品的促销的效果。例如在线定购电脑的用户,50%的人会在2个月内定购打印机。发现序列模式能够便于电子商务的决策者预测客户的访问模式,对客户提供个性化服务;网站管理员可利用发现的序列模式预测用户即将可能请求的页面,这样就可以针对特定用户在页面中放置不同的广告来增加广告点击率。4.2分类、聚类技术分类规则可以

8、挖掘出某些共同的特性,这个特性可以用来对新添到数据库里的数据项进行分类。在7Web数据挖掘中,分类技术可以根据访问这些用户而得到的个人信息或共同的访问模式,得出访问某一服务器文件的用户特征。例如我们可能从日志中发现,在产品提交的定单中,有30%是居住在大中城市并且年龄段在20~30岁之间。

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。