欢迎来到天天文库
浏览记录
ID:34441013
大小:171.42 KB
页数:4页
时间:2019-03-06
《xml 数据相似度研究new》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、第31卷第11期计算机工程2005年6月Vol.3111ComputerEngineeringJune2005博士论文文章编号10003428(2005)11002503文献标识码A中图分类号TP311.52XML数据相似度研究张丙奇白硕赵章界中国科学院计算技术研究所北京100080摘要XML数据的大量出现为信息检索数据挖掘智能信息处理提供了机遇和挑战而相似度计算是XML文档检索挖掘和深层次智能处理的基础对相似度计算进行研究具有非常重要的意义在对XML数据特征进行深入分析的基础上提出了一种递归相似度计算方法实验结果表明该方法具有较好的效果关键词XML相似度语义递归算法VSM模型
2、ARecursiveMethodtoComputeSimilarityofXMLDocumentsZHANGBingqi,BAIShuo,ZHAOZhangjie(InstituteofComputingTechnology,ChineseAcademyofSciences,Beijing100080)AbstractThequantityofXMLdatasharedintheWorldWideWebisincreasingquicklyanditoffersbothchallengesandopportunitiesininformationretrieval,datami
3、ningandintelligentinformationprocessing.Asthebasisofinformationretrieval,mining,andprocessing,accuratedeterminationofsimilaritybetweenXMLdocumentsisimportantandvaluable.ThispaperprovidesanovelrecursivemethodtogetthesimilaritybetweenXMLdocumentsaccordingtothesemanticandstructuralfeaturesofXML
4、.Italsoprovidesexperimentstoshowthecomparisonofthemethodagainsttraditionalmethodsandtheresultsprovethemethodishighlyeffective.KeywordsXML;Similarity;Semantic;Recursivealgorithm;VSMmodel1传统的相似度方法的数据具有“自描述”“树形结构”结构嵌套等特点传统的相似度算法都是扁平化的即表示对象的特在数据交换和集成中得到大量应用下面是一个XML文档征是扁平的特征之间互相独立可以看成是笛卡尔多(文档1)示例
5、元组的集合可以采用向量的方式进行计算和处理经典的文档1相似度计算方法有以下几种1.1Set/Bag模型<书ISBN="123-EFG-123">对象通过对象具有的特征集合来描述对象之间的相似<标题>论小说的写作标题>度通过描述对象的特征集合的交集表示例如下面的Jaccard<出版社>计算方法和Dice计算方法[1]<名字>四川文艺出版社名字><地点>人民中路8号地点>设XY分别是两个对象的特征集合则对象之间的<电话>028-5555123电话>Jaccard相似系数为出版社>
6、XIY
7、<作者><姓名>巴金姓名><出生地>四
8、川成都出生地>Sim(X,Y)=Jdcc
9、XUY
10、作者>Dice相似系数为<作者><姓名>流沙河姓名><出生地>四川金堂县出生地>*2
11、XIY
12、Sim(X,Y)=作者>Dice
13、X
14、+
15、Y
16、书>其它相关的方法有Inclusion测度Overlap系数等从上面的例子中可以看到文档1的根节点<书>说明该1.2VSM模型文档是关于书的<书>下面有<标题><出版社>和<作者>VSM模型是信息检索和文本挖掘中常用的方法在这等节点<出版社>的下面又有<名字><地点><电话>等里文本的每个特征被认为互相独立所有的特征形成一个节点XML的这种树形结构是通过Tag的关系来
17、表示的特征空间每个特征通过一定的方法赋予权重比如TF-IDF2.2对XML数据挖掘的研究方法每个文本表示为特征空间上的一个向量相似度通过XML数据的大量出现为数据挖掘和智能信息处理提供计算特征向量在特征空间中的某种距离来度量采用余了新的方向和挑战已引起很多研究者的关注文献[2]研究弦度量的相似度定义为了使用结构化向量表示XML文档以用于分类的问题XML的每个节点是其父节点的一个特征每个特征又是一个向量其特征为它的子节点文献[3]讨论了利用XML中的语作者简介张丙奇(1972)男博士生主研方向
此文档下载收益归作者所有