欢迎来到天天文库
浏览记录
ID:32216338
大小:1.58 MB
页数:56页
时间:2019-02-01
《基于xml的web数据挖掘技术研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、专业学位硕士学位论文基于XML的Web数据挖掘技术研究ResearchonWebDataminingtechnologybasedonXML作者姓名学科、专业学号指导教师完成R期互送望皇王:复堑篮工捏!盟Q地鳗旦丞塞2鲤§生!旦8目大连理工大学DalianUniversityofTechnology大连理1人学专业学位硕士学位论文摘要网络技术已经渗透到社会生活的方方面面,随着Intemet在世界范围内的迅速发展,越来越多的数据库和信息系统不断加入网络,使得Intemet发展成为当今世界上门类最全、规模最大的信息
2、库。伴随计算能力的增长,智能算法的成熟及大规模数据存储技术的成熟,面对缤纷复杂的Web空间,如何从浩如烟海的网络中发掘出所需要的信息成为人们所关注的一个主要问题,Web数据挖掘是解决这个问题的一个有效手段。Web上数据的最大特点就是半结构化,相对于完全结构化的传统数据库数据而吉,面向Web的数据挖掘比面向单个数据仓库的数据挖掘要复杂得多。以XML为基础的新一代www环境正是直接地面对Web数据,这不仅可以很好地兼容原有的Web应用,而且可以更好地实现Web中的信息共享与交换。通过将XML看作一种半结构化的数据模
3、型,很容易地就将XML的文档描述与关系数据库中的属性一一对应起来,顺利地实施精确查询与模型抽取;XML正逐渐成为新一代互联网数据组织和交换的标准,因此,研究XML在Web数据挖掘中的应用具有十分重要的意义。本文研究了数据挖掘技术在WWW上的应用。通过讨论Web挖掘的内容、流程、任务等,阐述了XML的产生和发展,特点以及和HTML的比较;在Web上半结构化数据的处理上,利用XML数据抽取技术将半结构化的数据映射为结构化数据,并通过实验进行了验证;建立了一个Web数据挖掘系统的模型,以提供一个实用的Web挖掘工具的
4、模型,帮助人们更有效地从Web上获取知识。本文在Web挖掘的基础上,将Agent技术引入数据挖掘,研究设计了基于Agent技术Web挖掘系统的体系结构,并采用用户兴趣关联规则挖掘算法预测用户的行为,最后指出了Web挖掘研究的方向、应用前景和它所面临的挑战。关键词:Web挖掘;XML;Agent大连理工大学专业学位硕士学位论文ResearchonWebDataminingtechnologybasedonXMLAbstractThenetworktechnologyhaspenetratedinallsideso
5、fthesociety.Accompanyingtherapiddevelopmentofnetworkallovertheworld,moreandmoreinformationmediumssuchasdatabaseandinformationsystemareenteringinit,whichhasmadeinternetbecomethemostabundantandsweepingdatabaseoftheworld.Andwiththeincreasingofcomputingcapacity,
6、thematurityofAIalgorithmandvastcapacityofstorage,inthefaceofthepropulsiveandcomplexspaceoftheWeb,themainproblempuzzlingtheworldishowtomineknowledgeefficientlyandquicklyfromthetremendousamountofnetdocument.Webdataminingisagoodmethodtodealwiththeproblem.Themos
7、timportantcharacterofthedataonthewebissemi—structured.Relativetothetraditionaldatabasewhosedatawaswell—structured,itismorecomplexforthedataminingonthewebthanonthesingledatabase.NewgenerationWorldWideWebbasedonXMLisjustdirectlyinthefaceofthewebdata,soitisvery
8、wellfortheapplicationofintrinsicweb,evenmoreforthecarriedoutoftheinformationsharingandexchangingontheweb.VialookinguponXMLasasemi-structuremodel,itwouldbemoreeasilytocorrespondthedocumentdescrip
此文档下载收益归作者所有