xml文档相似性的研究及其在文档聚类中的应用

xml文档相似性的研究及其在文档聚类中的应用

ID:26888544

大小:706.50 KB

页数:21页

时间:2018-11-29

xml文档相似性的研究及其在文档聚类中的应用_第1页
xml文档相似性的研究及其在文档聚类中的应用_第2页
xml文档相似性的研究及其在文档聚类中的应用_第3页
xml文档相似性的研究及其在文档聚类中的应用_第4页
xml文档相似性的研究及其在文档聚类中的应用_第5页
资源描述:

《xml文档相似性的研究及其在文档聚类中的应用》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、上海交通大学硕士学位论文XML文档相似性的研究及其在文档聚类中的应用姓名:陆翠明申请学位级别:硕士专业:计算机应用指导教师:李芳20050107上海交通大学硕士学位论文摘要XML文档相似性的研究及其在文档聚类中的应用摘要随着互联网的发展XML凭借其自身具有的结构化可扩展自描述等特点已经成为互联网上数据存储和数据交换的标准大有取代HTML的趋势XML文档相似性的计算是对XML文档进行数据挖掘和数据集成的基础也是研究语义WEB的一个方面本文针对XML文本自身具有结构化信息和语义信息的特点提出了一种专门计

2、算XML文档相似度的方法比使用传统的方法更有效通过对XML文档在互联网上的分布现状的分析我们发现XML文档已经渗透到互联网的每一个角落目前衡量两个文档树之间的相似度使用最多的方法是编辑距离本文提出了一种基于序列模式挖掘的方法定量计算文档的相似度XML文档预处理采用了一种新的基于树形结构的最小化方法同时本文还提出了一种基于向量空间模型的XML文档表示方法实现了两个文档结点间相似度的矩阵模型这个矩阵模型综合考虑了XML文档的结构信息和语义信息XML文档的聚类主要包括利用fastmap算法来实现距离度量到

3、欧拉空间的转换以及使用k-平均算法来实现聚类最后对全文进行了总结并提出了我们的下一步工作关键字数据挖掘向量空间模型序列模式挖掘聚类距离度量ii上海交通大学硕士学位论文ABSTRACTRESEARCHOFXMLSIMILARITYANDAPPLICATIONINCLUSTERINGABSTRACTWiththedevelopmentoftheInternet,XMLhasbecomethestandardofdatastoringanddatatransformationdependingonitsf

4、eaturessuchasstructure,extendibility,self-describe,tendingtoreplacingHTML.ComputingsimilaritybetweenXMListhebasisofdatamininganddataintegrityforXML.Itisapartofsemanticweb,too.ThispaperproposesaspecificmethodforXMLconsideringthatXMLcontainsstructuralinf

5、ormationandsemanticinformation.Thismethodismoreeffectivethantraditionalmethod.ByanalysisofdistributionofXMLoninternet,aconclusionismadethatXMLcanbefoundeverywhere.Atpresent,“distanceedit”methodiscommonlyusedtoevaluatethesimilaritybetweenXMLdocuments.Th

6、ispaperproposesamethodbasedonsequentialpatternminingtocalculatesimilaritybetweenXMLdocuments.AtXMLpreprocessingphase,anewalgorithmbasedontreestructureisusedtominimizeXMLdocuments.RepresentationofXMLdocumentbasedonvectorspacemodelisproposedinthispaper.M

7、eanwhile,matrixmodelrepresentingtheiii上海交通大学硕士学位论文ABSTRACTsimilaritybetweennodesfromdifferentXMLdocumentisdescribed,whichconsidersbothstructuralinformationandsemanticinformation.TheworksofclusteringXMLdocumentsinclude:analgorithmtotransformdistancemeas

8、ureintoEuclideanspaceandk-meansalgorithmtoclusteringXMLdocuments.Attheendofthispaper,conclusionsaremadeandthefutureworksaredepicted.KEYWORDS:datamining,vectorspacemodel,sequentialpatternmining,clustering,distancemeasureiv上海交通大学硕士学位论文原创性

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。