资源描述:
《web数据挖掘技术及应用》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、Web数据挖掘技术及应用20汁算机与数字工程第34卷Web数据挖掘技术及应用马保国侯存军王文丰钱方正(武汉理工大学硅酸盐材料工程教育部重点实验室武汉430070)摘要Web数据挖掘是数据挖掘技术在Web信息集合上的应用,Web数据具有本身的特点,Web数据挖掘可以分为三类,各自有其相关技术,随着Intemet的发展,Web数据挖掘有着越来越广泛的应用.关键词Web数据挖掘分类相关技术中图分类号TP311TheTechnologyandApplicationofWebDataMiniIlgMaBaoguoHouCanj
2、anWangWenfengQianFangzheng(KeyLaboratory,forSilicateMaterialsScienceandEngineeringofMinistryofEducation,wHIIT,Wuhan430070)AbstractWebdataminingisdefinedastheapp~ea6onofdataminingtechilologyonWebinformationaggregation.Characterofitselfisposs~inWebdata.'1]u"eekin
3、dsofresearchareincludedinWebdataminingandrespectivetechnologyisdiscussedinthisarticle.Withthedevelopmentoflntemet,Webdataminingwillbeusedmoreandmoreindifferentfields.KeywordsWebdatamining,kind,correlativetechnologyClassnumberI1)3l11引言数据挖掘(DataMining,DM)是近年来发展迅速
4、的知识发现的一个重要步骤,在科学研究和社会应用领域都得到了广泛的应用.目前数据挖掘并没有一个完全公认的定义,一般认为:数据挖掘是运用计算机及信息技术,从大量的,不完全的数据集中获取隐含在其中的有用知识的高级过程.'Web数据挖掘是从数据挖掘发展而来,是数据挖掘技术在Web技术中的应用.Web数据挖掘是一项综合技术,通过从[ntemet上的资源中抽取信息来提高Web技术的利用效率.也就是从Web文档结构和试用的集合中发现隐含的模式1J,原理如1所示2Web数据的特点Web技术做为lrl
5、i'lIR"t飞速发展的产物,对
6、信息在社会中的传播起刘J很重要的作Jf].分佰于各Wb站点上的数据f1'j[1身的特点_2I..t的可以t收到本文时间:2005年9川29日基金项目:家"863"科技,j荚项目(编号:!(x.33:0lO)湖北省科技火项目(编号:2004…tl21)资图1Web数据挖掘原理图归纳为以下几点:2.1数据量巨大Intemet把分布于世界不同位置的电脑(服务器)连接了起来,每个电脑上都存有丰富的数据,这些数据涉及各种不同的行业和领域,又由于连接于Intemet的电脑数量非常巨大,所以Web站点中的数据量也非常巨大.2.2异
7、构数据库环境从数据库研究的角度来看.Web网站上的所有信息也可以石作是一个比普通数据库更大,更复杂的数据库..一个Web站点都可以看作是一个数据源,由于备站点是相互独立的,之间除可以互第34卷(2oo6)第6期计算机与数字工程相访问之外并没有任何关系,所以每个站点之间的信息及信息组织方式都是不相同的,这就构成了一个巨大的异构数据库环境.要对这些数据进行分析,必须要解决各站点之间异构数据的集成问题,提供给用户一个统一的视图,才可能从巨大的数据资源中获取有用的信息.2.3半结构化的数据结构Web上的数据与传统数据库中的数
8、据不同之处还在于传统数据库都有一定的模型,可以根据数据模型来对具体的数据进行描述,而web站点中的数据不存在统一的模型,各站点都是独自设计,并且站点中的数据是处于不停变化之中的.虽然Web有自身的结构,大体上站点的结构差异并不是特别大,所以可以认为Web数据是一种半结构化的数据,这是Web数据的另一个重要的特点.3Web数据挖掘的分类Web数据挖掘可以分为Web内容挖掘,Web结构挖掘,Web使用挖掘三类.Web内容挖掘是从文档内容或其描述中抽取有用信息的过程,Web内容挖掘有两种策略:直接挖掘文档的内容和在其他工具
9、搜索的基础上进行改进.根据挖掘处理的数据可以将web内容挖掘分为文本挖掘和多媒体挖掘两个部分.Web结构挖掘是从Web组织结构和链接关系中推导知识.挖掘页面的结构和Web结构,可以用来指导对页面进行分类和聚类,找到权威页面,中心页面,从而提高检索的性能.同时还可以用来指导页面采集工作,提高采集效率.Web结构挖掘可以分为Web文档内部结构挖掘和