xml 数据相似度研究new

xml 数据相似度研究new

ID:34441013

大小:171.42 KB

页数:4页

时间:2019-03-06

xml 数据相似度研究new_第1页
xml 数据相似度研究new_第2页
xml 数据相似度研究new_第3页
xml 数据相似度研究new_第4页
资源描述:

《xml 数据相似度研究new》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、第31卷第11期计算机工程2005年6月Vol.3111ComputerEngineeringJune2005博士论文文章编号10003428(2005)11002503文献标识码A中图分类号TP311.52XML数据相似度研究张丙奇白硕赵章界中国科学院计算技术研究所北京100080摘要XML数据的大量出现为信息检索数据挖掘智能信息处理提供了机遇和挑战而相似度计算是XML文档检索挖掘和深层次智能处理的基础对相似度计算进行研究具有非常重要的意义在对XML数据特征进行深入分析的基础上提出了一种递归相似度计算方法实验结果表明该方法具有较好的效果关键词XML相似度语义递归算法VSM模型

2、ARecursiveMethodtoComputeSimilarityofXMLDocumentsZHANGBingqi,BAIShuo,ZHAOZhangjie(InstituteofComputingTechnology,ChineseAcademyofSciences,Beijing100080)AbstractThequantityofXMLdatasharedintheWorldWideWebisincreasingquicklyanditoffersbothchallengesandopportunitiesininformationretrieval,datami

3、ningandintelligentinformationprocessing.Asthebasisofinformationretrieval,mining,andprocessing,accuratedeterminationofsimilaritybetweenXMLdocumentsisimportantandvaluable.ThispaperprovidesanovelrecursivemethodtogetthesimilaritybetweenXMLdocumentsaccordingtothesemanticandstructuralfeaturesofXML

4、.Italsoprovidesexperimentstoshowthecomparisonofthemethodagainsttraditionalmethodsandtheresultsprovethemethodishighlyeffective.KeywordsXML;Similarity;Semantic;Recursivealgorithm;VSMmodel1传统的相似度方法的数据具有“自描述”“树形结构”结构嵌套等特点传统的相似度算法都是扁平化的即表示对象的特在数据交换和集成中得到大量应用下面是一个XML文档征是扁平的特征之间互相独立可以看成是笛卡尔多(文档1)示例

5、元组的集合可以采用向量的方式进行计算和处理经典的文档1相似度计算方法有以下几种1.1Set/Bag模型<书ISBN="123-EFG-123">对象通过对象具有的特征集合来描述对象之间的相似<标题>论小说的写作度通过描述对象的特征集合的交集表示例如下面的Jaccard<出版社>计算方法和Dice计算方法[1]<名字>四川文艺出版社<地点>人民中路8号设XY分别是两个对象的特征集合则对象之间的<电话>028-5555123Jaccard相似系数为

6、XIY

7、<作者><姓名>巴金<出生地>四

8、川成都Sim(X,Y)=Jdcc

9、XUY

10、Dice相似系数为<作者><姓名>流沙河<出生地>四川金堂县*2

11、XIY

12、Sim(X,Y)=Dice

13、X

14、+

15、Y

16、其它相关的方法有Inclusion测度Overlap系数等从上面的例子中可以看到文档1的根节点<书>说明该1.2VSM模型文档是关于书的<书>下面有<标题><出版社>和<作者>VSM模型是信息检索和文本挖掘中常用的方法在这等节点<出版社>的下面又有<名字><地点><电话>等里文本的每个特征被认为互相独立所有的特征形成一个节点XML的这种树形结构是通过Tag的关系来

17、表示的特征空间每个特征通过一定的方法赋予权重比如TF-IDF2.2对XML数据挖掘的研究方法每个文本表示为特征空间上的一个向量相似度通过XML数据的大量出现为数据挖掘和智能信息处理提供计算特征向量在特征空间中的某种距离来度量采用余了新的方向和挑战已引起很多研究者的关注文献[2]研究弦度量的相似度定义为了使用结构化向量表示XML文档以用于分类的问题XML的每个节点是其父节点的一个特征每个特征又是一个向量其特征为它的子节点文献[3]讨论了利用XML中的语作者简介张丙奇(1972)男博士生主研方向

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。