欢迎来到天天文库
浏览记录
ID:34808625
大小:2.52 MB
页数:72页
时间:2019-03-11
《基于xmlweb数据挖掘》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、摘要随着Internet的迅速发展,越来越多的数据库和信息系统不断加入网络,使得网络上存在大量的数据,面对如此缤纷复杂的Web空间,如何从浩如烟海的网络数据中发掘所需信息已经成为人们所关注的一个重要问题。虽然用户可以依赖于各种搜索引擎快速、高效、准确地检索到相关的信息,但是要想找到用户所需要的信息,还是有很大的困难。近年来出现的Web数据挖掘,特别是基于XML的WEB数据挖掘对解决这个难题提供了一个有效手段。本文研究了基于XML的WEB数据挖掘的基本方法和技术。阐明了数据挖掘的必要性、基本方法、主要过程、所涉及到的技术,以及数据挖掘和在线分析处理的联系等,并阐述了XML的相关技术。
2、在此基础上,探讨了XML与WEB数据挖掘技术,认为基于XML的WEB挖掘分为XML结构上的挖掘和XML内容上的挖掘;XML在WEB挖掘中主要有数据交换、实现异构数据集成、裁减信息内容、将负载从WEB服务器转到WEB客户端等四类应用,基于XML的WEB数据挖掘可分为确定业务对象、数据准备、数据挖掘、模式评价四个步骤。论文重点研究了非结构化文档向结构化文档转化的方法,设计并实现从非规则、非严谨的HTML文档向结构化XML文档转化的过程,根据用户浏览网页的行为建立用户的兴趣模型,利用XML数据抽取技术将半结构化数据映射为结构化数据,建立了一个基于xml的Web数据挖掘系统。此系统可以帮助
3、用户更好地从网络环境中挖掘到自己需要的信息。由用户的Cookies获得用户在某个域名上的点击次数和登陆次数,从收藏夹中获得用户收藏夹上的记录和收藏夹中记录的访问次数,或者利用钩子函数进行用户浏览网页的动态分析,并根据这些数据建立和更新用户兴趣模型。根据XML文档的结构特征从XML网页中抽取网页的特征向量,采用改进了的TF_IDF公式计算其特征权值。根据网页特征向量与用户兴趣向量的值计算它们的相似度,把相似度进行排序,根据用户需求把相似度大的网页推荐给用户,把用户最感兴趣的信息放在最前面。所有的研究目的就是提供一个实用的Web挖掘系统,帮助人们更好地找到自己所要的知识。在理论论证基础
4、上,论文对挖掘原型进行系统设计、功能模块分解和实验分析。最后,指出了基于xml的Web数据挖掘的研究方向、应用前景和它所面I临的挑战。这一技术将成为未来Internet环境中主流的网络计算技术。关键词数据挖掘,xml,用户兴趣模型,网页推荐IIABSTRACTWiththerapiddevelopmentofInteract,moreandmoredatabasesandinformationsystemjointhenetworkunceasingly,whichcausesmassivedatainthenetwork.FacingsuchriotouscomplexWebsp
5、ace,howtoexcavatetheneededinformationfromthevoluminousnetworkdatahasalreadybecomeanimportantquestion.Althoughtheusermayrelyonvariouskindsofsearchenginetoretrievetheconnectedinformationfast,highlyeffective,andaccurately,itisstilldifficulttofmdtheinformationwhichtheuserneeds.Inrecentyears,theWeb
6、datamining,especiallytheWEBdataminingwhichbasedon)@几,provideaneffectivemethodtosolvethisdifficultproblem.ThisarticlestudiestheessentialmethodandtechnologyoftheWEBdataminingwhichbasedontheX~几.illustratesthenecessity,essentialmethod,mainprocess,concerningtechnologyofthedatamining,aswellastherela
7、tionofthedataminingandtheonlineanalysisprocessingetc.,italSOelaboratestherelatedtechnologyofXM吐.Withthisfoundation.itdiscussesthetechnologyoftheX^Ⅱandthe、ⅣEBdatamining.regardsthattheWEBdataminingwhichbasedonXMLcanbedividesintoXMLstructu
此文档下载收益归作者所有