欢迎来到天天文库
浏览记录
ID:26888544
大小:706.50 KB
页数:21页
时间:2018-11-29
《xml文档相似性的研究及其在文档聚类中的应用》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、上海交通大学硕士学位论文XML文档相似性的研究及其在文档聚类中的应用姓名:陆翠明申请学位级别:硕士专业:计算机应用指导教师:李芳20050107上海交通大学硕士学位论文摘要XML文档相似性的研究及其在文档聚类中的应用摘要随着互联网的发展XML凭借其自身具有的结构化可扩展自描述等特点已经成为互联网上数据存储和数据交换的标准大有取代HTML的趋势XML文档相似性的计算是对XML文档进行数据挖掘和数据集成的基础也是研究语义WEB的一个方面本文针对XML文本自身具有结构化信息和语义信息的特点提出了一种专门计
2、算XML文档相似度的方法比使用传统的方法更有效通过对XML文档在互联网上的分布现状的分析我们发现XML文档已经渗透到互联网的每一个角落目前衡量两个文档树之间的相似度使用最多的方法是编辑距离本文提出了一种基于序列模式挖掘的方法定量计算文档的相似度XML文档预处理采用了一种新的基于树形结构的最小化方法同时本文还提出了一种基于向量空间模型的XML文档表示方法实现了两个文档结点间相似度的矩阵模型这个矩阵模型综合考虑了XML文档的结构信息和语义信息XML文档的聚类主要包括利用fastmap算法来实现距离度量到
3、欧拉空间的转换以及使用k-平均算法来实现聚类最后对全文进行了总结并提出了我们的下一步工作关键字数据挖掘向量空间模型序列模式挖掘聚类距离度量ii上海交通大学硕士学位论文ABSTRACTRESEARCHOFXMLSIMILARITYANDAPPLICATIONINCLUSTERINGABSTRACTWiththedevelopmentoftheInternet,XMLhasbecomethestandardofdatastoringanddatatransformationdependingonitsf
4、eaturessuchasstructure,extendibility,self-describe,tendingtoreplacingHTML.ComputingsimilaritybetweenXMListhebasisofdatamininganddataintegrityforXML.Itisapartofsemanticweb,too.ThispaperproposesaspecificmethodforXMLconsideringthatXMLcontainsstructuralinf
5、ormationandsemanticinformation.Thismethodismoreeffectivethantraditionalmethod.ByanalysisofdistributionofXMLoninternet,aconclusionismadethatXMLcanbefoundeverywhere.Atpresent,“distanceedit”methodiscommonlyusedtoevaluatethesimilaritybetweenXMLdocuments.Th
6、ispaperproposesamethodbasedonsequentialpatternminingtocalculatesimilaritybetweenXMLdocuments.AtXMLpreprocessingphase,anewalgorithmbasedontreestructureisusedtominimizeXMLdocuments.RepresentationofXMLdocumentbasedonvectorspacemodelisproposedinthispaper.M
7、eanwhile,matrixmodelrepresentingtheiii上海交通大学硕士学位论文ABSTRACTsimilaritybetweennodesfromdifferentXMLdocumentisdescribed,whichconsidersbothstructuralinformationandsemanticinformation.TheworksofclusteringXMLdocumentsinclude:analgorithmtotransformdistancemeas
8、ureintoEuclideanspaceandk-meansalgorithmtoclusteringXMLdocuments.Attheendofthispaper,conclusionsaremadeandthefutureworksaredepicted.KEYWORDS:datamining,vectorspacemodel,sequentialpatternmining,clustering,distancemeasureiv上海交通大学硕士学位论文原创性
此文档下载收益归作者所有