基于频繁模式树xml数据挖掘

基于频繁模式树xml数据挖掘

ID:34623656

大小:2.73 MB

页数:65页

时间:2019-03-08

基于频繁模式树xml数据挖掘_第1页
基于频繁模式树xml数据挖掘_第2页
基于频繁模式树xml数据挖掘_第3页
基于频繁模式树xml数据挖掘_第4页
基于频繁模式树xml数据挖掘_第5页
资源描述:

《基于频繁模式树xml数据挖掘》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、摘要数据挖掘是指从大量的、不完全的、有噪声的、模糊的数据中提取出隐含在其中的、人们事先不知道的但又潜在有用的知识的半自动化的方法,它是解决“数据丰富、信息贫乏"的有效方法。XML是由SGML发展而来的一种简单、灵活的文本格式。它己经成为Intemet上数据描述和交换的标准,越来越多的数据以XML文档进行存储,在这些数据中隐含着大量的知识信息与各类模式,因此,人们迫切需要一些有效的方法来从中提取出一些潜在的、有价值的知识,这就是XML挖掘。但是,作为一种树形的半结构化数据,XML非常复杂且具有异构性,它不能轻易地被映射到关系模型,这样,传统的面向关系型数据的挖掘方法如A埘ori算法等,

2、并不能直接应用到XML挖掘上。因此,研究一种有效的针对XML的数据挖掘方法成为数据挖掘领域和XML技术领域的一项重要课题。本文首先介绍了传统的数据挖掘基本理论、XML的基本理论、XML的特点以及XML有关技术规范。其次介绍了频繁子树挖掘的相关概念和现有的一些频繁子树挖掘算法。接着在分析了现有频繁模式树挖掘算法FREQT和Freqttree的基础上,提出了一种新的频繁模式树挖掘算法一PDOM算法。PDOM算法采用最右路径扩展的思想,然后利用递推式的候选节点集更新技术来压缩候选节点集,使产生的候选模式数量大大减少,并且在计算候选模式树的支持数时,采用增量式技术,提高算法效率。通过定理证明

3、了PDOM算法的正确性,并对其进行了实验分析。最后,考虑NXML的树形结构,提出了基于频繁模式树的XML文档分类算法一BFPC算法。BFPC算法基于XML内容和XML结构两方面。它首先利用tf木idf权值法提取XML文件中非结构的信息即)(ML内容的特征代表,接着利用PDOM算法提取各个类别的频繁模式树,作为该类别的结构特征,并赋予每个模式树一定的权值。同时,本文还提出了一种模式树匹配算法一PMatch,通过最右匹配集来实现模式树的匹配。最后测试阶段,利用PMal:ch算法以及关键字匹配,计算测试文档的得分,判断该文档所属的类别。通过实验证明,BFPC算法有较高的查准率。关键词:XM

4、L挖掘;频繁模式树;模式树匹配AbstractDatamimngisdefinedasanon—trivialprocessofextractingvalid,novel,potentiallyuseful,andultimatelyunderstandablepaaernsfromalargenumberofincomplete,noisyandambiguousdata.Itisanefficientmethodofresolvingtheproblemof“datarich-informationpo矿’.XMLisasimple,veryflexibletextformatd

5、erivedfromSGML.XMLhasbecomethestandardsfordatarepresentationandexchangeovertheInternet.MoreandmoredamsarestoredinXMLformat,andalotofinformationandvariousofpatternsalehiddeninthedatas.Hence,therehavebeenincreasingdemandsofefficientmethodstllatextractpotentialandvaluabledinformationfromXMLdata,na

6、melyXMLdatamimng.However,asakindofsemi—structureddata,XMLdataareahugeamountofcomplexandheterogeneousdatamodeledbytrees,andcannotbeeasilymappedintoarelationalframework.Thus,wecannotdirectlyapplytoXMLdatatraditionaldataminingmethodsforrelationaldatabases,suchasApfiori.Hence,itisaimportantchalleng

7、etodevelopefficientandscalablemethodsforXMLdatamining.Thispaperfirstintroducesthebasictheoryofthetraditionaldatamining,thebasictheoryofXML,thefeaturesofXMLdocumentsandtechnicalspecificationsrelatedtoXML.Second,itintroducestheconce

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。