xml文档语义相似性研究综述

xml文档语义相似性研究综述

ID:33406820

大小:2.70 MB

页数:39页

时间:2019-02-25

xml文档语义相似性研究综述_第1页
xml文档语义相似性研究综述_第2页
xml文档语义相似性研究综述_第3页
xml文档语义相似性研究综述_第4页
xml文档语义相似性研究综述_第5页
资源描述:

《xml文档语义相似性研究综述》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、东北师范大学硕士学位论文XML文档语义相似性研究综述姓名:王成龙申请学位级别:硕士专业:电路与系统指导教师:卫金茂20091201摘要随着信息技术的发展,XML成为一个热门的话题。XML的发展,也为基于Web的信息交换带来了新的希望。但由于XML数据是半结构化的,在搜索处理这些半结构化的数据信息时,尤其是在用户需要查找与某一信息相关(但不完全一致)的数据时会产生很多问题。这就需要研究基于XML文档的近似搜索技术。近似搜索技术的基础是准确地度量所查询的信息与文档、文档与文档间的相关性与相似性,因此XML文档之间的相似性

2、研究问题显得尤为重要。XML文档之间相似度的计算是文档检索、挖掘和文本聚类的基础,是信息检索和数据仓库领域的中心论题。本文介绍了XML文档相似性问题的研究背景,实际意义和该课题的研究现状,分析了XML文档相似性在数据综合、数据仓库和文档聚类中的应用。本文首先对XML的语法结构进行简单概述,XML文档的语法规则是应用和处理XML文档的基础。介绍了语义网和树的概念,然后重点对当前的XML文档相似性计算方法进行了总结。当前的XML文档相似性计算方法主要分为基于编辑距离的、基于信息检索的、边匹配、集合度量、模式匹配和结构信息

3、内容(SIC),文中重点对以上六种方法进行了介绍和总结,说明了它们在不同领域中的应用和方法的不足。最后对XML文档相似性的研究问题进行了展望。关键词:XML文档;语义;语义相似性;编辑距离;边匹配AbstractWiththedevelopmentofinformationtechnology,XMLisincreasin91ybecomingahottopi已TothedevelopmentofXML,itbringsnewhopetotheinformationhaterchangewhichisbasedonW

4、eb.ButtheXMLdocumentissemi.structured,insearchinga11ddealingwitllthesesemi—structureddatainformation,especiallyintheuserneedstofindiI响mationrelevanttoaparticulardatawillhavealotofproblem.So,approximatesearchingtechIliqueisneeded·Thefoundationofapproximatesearch

5、ingtechniqueishowwecancomDutethesimilarityandrelevancebetweeninformationanddocuments.SoitisimportanttostudvthesimilaritybetweenXMLdocuments.ThesimilaritybetweenXMLdocumentSisthefoundationtothedocumentseal℃h,millinganddocumentclustering.Itisthecentraltopicininfo

6、rmationretrievalanddatastorageareas.J_11isarticlereviewstheresearchstatusofmdocumentssimilarity.WeanalyzetheapplicationofXMLdocumentssimilarityindataintegration,datawarehousesaIlddocumentclustering.WegiveanintroductiontothesyntaxstructureoftheXML.Thesyntaxstruc

7、tllreofXMListhefoundationofapplicationandprocessingofXMLdoc啪ems.Then,w.eiIl仃oducetheconceptoftheSemanticWebandtrees.FocusonthecurrentXMLdocumentsimilaritycalculationmethodissummarized.ThecurrentXMLdocumentsimilaritycalculationmethodcanbedividedintoEdit·distance

8、based,Information-Retrievalbased,edgematching,acollectionofmeasurement,patternmatchingandSIC.Thispaperfocusonthe£Lbovesi)【kindsofmethods,andshowstheirapplicationindifferenta

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。