欢迎来到天天文库
浏览记录
ID:34139941
大小:1.91 MB
页数:58页
时间:2019-03-03
《同构xml流层次分类方法研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、分类号:TPl8似计罗u一\单位代码:10005学号:$200707037密级:公升北京工业大学硕士学位论文题目回掏基丛坠逋屋达公差友法硒究英文并列—RES—EARCHONHIERARCHICALCLASSIFICATION题目』FXMLSTREAMSWITHTIlESAMESCHEMA论文报告提交日期:研究方向:让篡扭丕筮结捡学位授予R期:授予单位名称和地址:jE立工些厶堂jE塞丑!翅匦!匡:l:巫国!QQ曼整缩!鲤12生、独创性声明本人声明所呈交的论文是我个人在导师指导下进行的研究工作及取得的研究
2、成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得北京工业大学或其它教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示了谢意。,7签名:查£毫同期:墅l壁拿矗辱l婆关于论文使用授权的说明本人完全了解北京工业大学有关保留、使用学位论文的规定,即:学校有权保留送交论文的复印件,允许论文被查阅和借阅:学校可以公布论文的全部或部分内容,可以采用影印、缩印或其他复制手段保存论文。,(保密的论文
3、在解密后应遵守此规定)签名:—窖照一导师签名::锄同期:土幽f上辞~摘耍摘要近年来,山于XML具有良好的结构性和町扩展性,并且允钥:用户根据自己的需要定义自己的标记,XML逐渐成为网一l一数据表示和交换的主要格式。在Intemet应用中,存在大量的XML文档,如何有效的利用这类XML数据已经成为Intemet领域一个亟待解决的问题。分类足数据挖掘中一个重要的课题,在数据挖掘的发展趋势中发挥着重要的作用。虽然已经出现了大量解决数据流分类的方法,但针对XML流的分类尚处于起步阶段。针对XML分类,本文主要
4、完成了如下的研究:首先,在XMLSCHEMA相同的情况下,对XML文档流进行形式化表达,提出了针对XML文档流的新的定义。即按照时问顺序,先后到达的XML文档形成了XML文档流,每一篇XML文档对应了XML文档流中的一个元素。其次,本文提出了一种同构XML文档的层次分类算法,它基于特定的XMLSCHEMA和遵循该SCHMEA的静态XML文档集合,以传统的ID3决策树分类算法为核心,结合层次分类的思想,对静态XML文档进行层次分类。再次,在静态XML文档层次分类的基础上,本文提出了一种新的同构XML流层
5、次分类算法,它以VFDT算法为核心,利用流中每一篇XML文档解析后得到的样本来动态构建各个层次的分类器,对在线XML文档流进行层次分类。最后,对以上两种层次分类算法在内存、分类准确率方面进行了对比。实验结果表明,基于VFDT算法的XML文档流层次分类能够达到基于ID3算法的XML文档层次分类的精确度,且两科,层次分类算法的分类精确度能够达到静态分类的要求。关键词数据挖掘;VFDT;层次分类;XML流~北京T、Ip人学T学硕Ij学俯论文II~AbstractAbstractXMLnotonlyhasth
6、egoodstructureandscalability,butalsoallowsuserstodefinetheirowntags;XMLhasbecomethemainformatoftheexpressionandexchangeofthewebdata.Atthesametime,alargenumberofXMLdocumentswiththewealthyinformationhavearisen.HowtousethistypeofXMLdatahasalreadybeenanimpo
7、rtantandurgentprobleminIntemetfield.Classificationisasignificantsubjectindataminingandplaysanimportantpartinthedevelopingtrendofdatamining.Althoughtherehasalreadyemergedsomeclassificationmethodsforthenormaldatastream,themethodofdealingwiththeXMLstreamis
8、stillbeingexplored.AimingattheXMLclassification,thispapermainlycompletedthefollowingtasks:First,thispaperpresentsthenewdefnitionfortheXMLdocumentsstreamwimthesamexmlschema.Second,thispaperpresentsanewhierarchicalclassificationalg
此文档下载收益归作者所有