欢迎来到天天文库
浏览记录
ID:23999383
大小:1.34 MB
页数:62页
时间:2018-11-12
《基于xmlweb挖掘的研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、摘要Web上有丰富的信息,但是在Web上查找所需的信息却彳i是一件容易的事情。如何利用Web上丰富的信息,进行有效的资源和知识的发现,成为当前Web领域的一个研究热点。Web挖掘就是针对这种需要而产生的一种结合Web研究与数据挖掘技术两个领域的新的研究领域。本课题的研究内容是基于XML的Web挖搦技术,主要:l:作是研究如何集成分布的、异构的、半结构化的Web数据,以便于进行Web资源和知识发现。首先,钊对Web数据异构、半结构化的特点,我们使用XML作为描述Web原始数据的描述语吉,将异构的、半结构化的web数据转化为结构化
2、的数据——_xML数据。然后针对分布数据源中XML数据存在的语义异构的问题,我们引入本体来赋予XML数据领域共享的语义。具体方法是在XML数据之上添加了一层RDF元数据,用RDFSchema编码本体信息,通过RDF元数据建立XML数据与本体中概念之间的对应关系,赋予XML数据领域内共享的语义。最后收集RDF元数据,建立元数据库,在元数据库中进行Web资源和知识的发现。关键词:Web挖掘,Web数据集成,半结构化数据,XML数据模型语义,RDF/RDFSchema,本体,元数据库XML-basedWebMiningResearc
3、hABSTRACTTherearehugeamountsofinformationconnectedtotheWorldWideWeb,butnavigationandinformationretrievalontheWebarenoteasytasks.Efficientandeffectivediscoveryofresourceandknowledgefromtheglobalinformationbasehasbecomeanimminentresearchissue.WebMiningisarisingtoserve
4、thisneedthatcombinesthetworesearchareasWebandDatamining.Inthisarticle,wehavestudiedtheWebMiningapproach,concentratingontheintegrationofheterogeneousandsemi—structuredWebinformationtofacilitatethediscoveryofresourceandknowledgeontheWeb.First,weuseXMLdescribingtheprim
5、aryWebinformationtotransformtheheterogeneousandsemi—structureddataintostructureddata·XMLdata.ThenweintroduceOntologytosolvethesemanticdifferencesbetweendistributedXMLdata.ThisisdonebypointingtheXMLelementtoaconceptinparticularOntologyusingRDF/RDFSchemamechanism.Fina
6、lly,wecollecttheRDFmetadataofXMLdocumentintodatabase.Inthemeta-database,userandapplicationcancarryonthediscoveryofWebresourceandpotentialknowledge.Keywords:WebMining,Webinformationintegration,semi-structureddata,XMLdatamodel,semantic,RDF/RDFSchema,Ontology,meta.data
7、base独创性声明本人声明所呈交的论文是我个人在导师指导r进行的研究工作及取得的研究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得石油大学或其它教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示了谢意。签名:越如吟年6月(6日关于论文使用授权的说明本人完全了解石油大学有关保留、使用学位论文的规定,即:学校有权保留送交论文的复印件及电子版,允许论文被查阅和借阅;学校可以公布论文的全部或部分内容,可以采用影印
8、、缩印或其他复制手段保存论文。学生签名:盟至堡瑚。≥年6月导师签名:w产占月嚆裂浮慕【6日,6日百油大学(华尔)硕士论文第1章前言1.1问题的提出及意义WorldWideWeb目前已经发展成为一个连接近亿个工作站,包含数十亿页面,蕴涵丰富的数据和潜在知识的巨大的分布式信息库。
此文档下载收益归作者所有