基于结构与内容相融合的xml文档聚类研究(智能信息系统)

基于结构与内容相融合的xml文档聚类研究(智能信息系统)

ID:14632086

大小:449.25 KB

页数:11页

时间:2018-07-29

基于结构与内容相融合的xml文档聚类研究(智能信息系统)_第1页
基于结构与内容相融合的xml文档聚类研究(智能信息系统)_第2页
基于结构与内容相融合的xml文档聚类研究(智能信息系统)_第3页
基于结构与内容相融合的xml文档聚类研究(智能信息系统)_第4页
基于结构与内容相融合的xml文档聚类研究(智能信息系统)_第5页
资源描述:

《基于结构与内容相融合的xml文档聚类研究(智能信息系统)》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、《智能信息系统》课程论文基于结构与内容相融合的XML文档聚类研究姓名:祝黎学号:2012201040008院系:信息管理学院专业:管理科学与工程年级:12级硕士基于结构与内容相融合的XML文档聚类研究祝黎(武汉大学信息管理学院,湖北武汉430072)摘要本文分析了国内外已有的XML文档聚类技术,对XML聚类技术进行了研究,提出了一种将文档结构和内容相融合的聚类方法——两阶段聚(TPCM:TwoPhaseClusteringMethodofXMLDocuments)。该方法首先采用传统的相似度计算和K-means聚类算法对XML文档结构进行大

2、类的聚类,然后利用改进的数路径模型方法对大类进行更有效、更准确的XML文档分类。关键词xml;文档聚类;两阶段法;K-meansAbstractThispaperanalyzedthedomesticandforeignexistingXMLdocumentclusteringtechnique,theXMLclusteringtechniquesarestudied,thispaperputsforwardadocumentstructureandcontentoftheintegrationofclusteringmethod,TwoP

3、haseClusteringMethodofXMLDocuments.ThismethodfirstlyusestraditionalsimilaritycalculationandK-meanstoclustertheXMLdocumentstructuretypes,andbyusingtheimprovedmethodofpathmodelnumberofcategoriestogetmoreeffectiveandmoreaccurateclassificationoftheXMLdocument.Keywordsxml;docum

4、entclustering;TPCM;K-means1.引言我们正处在一个信息爆炸的时代,随着WEB网上信息的爆炸式增长,从半结构化文档(特别是XML文档)中提取信息变得越来越重要。目前互联网上已经形成了一个巨大的由XML格式数据构成的数据仓库。如何有效存储、索引、挖掘与利用XML数据已成为研究热点。XML是一种元标记语言,它提供描述结构化资料的格式,可用于创建标记语言。它以其良好的数据存储格式、可扩展性、高度结构化、便于网络传输等优点在许多领域应用,便于网页信息组织,不仅能满足不断增长的网络应用需求,而且还能确保在与网络进行交互时,具有良

5、好的可靠性与互操作性。文本聚类是数据挖掘中的一项重要内容,它不但可以提高信息检索系统的查准率和查全率,还可以用来组织搜索引擎返回的结果,自动产生文本的层次簇或类,并利用这些簇或类对新文档进行归类。XML文本聚类的目标和普通的文本聚类一样,就是将XML文档集组成不同的类,使得类内文档之间的相似性尽量大,而类间的相似性尽量小。XML文档是信息与元信息的混合体,其“语义”可以看作是由文档内容和文档结构两部分构成。这里的内容是指元素值和属性值,结构是指由标记名称及标记之间的层次关系描述的元素值(属性值)之间的语义关系。而现有的XML文档聚类算法也根

6、据上面的两种关系分为基于结构相似度和基于语义相似度两大类。但是这两大类其实都只考虑了XML文档的一个部分,在很多场合的应用是不合理的。:两个有截然不同结构的Schema可以有同样内容的文档实例,两个有截然不同内容的XML文档若他们的Schemas相似也可以聚类在一起。文献[1]提出将文本内容中的高频词和文档标记简单合并作为特征向量,引进向量空间法对文档进行聚类。这种方法虽然综合考虑了文档的内容特征和结构特征,但将两类特征看作是正交的,割裂了彼此之间的联系,显然与文档的特点不相符合。文献[3]提出了反映XML文档内容特征和结构特征的构件向量,

7、在数据为中心的文档集中获得了较好的聚类效果。但是该方法在处理开放的、大规模的以文本为中心的XML真实数据时,会产生大量的构件向量,导致算法的执行效率大打折扣。而本文分析了国内外已有的XML文档聚类技术,对XML聚类技术进行了研究,提出了一种将文档结构和内容相融合的聚类方法——两阶段聚(TPCM:TwoPhaseClusteringMethodofXMLDocuments)。该方法首先采用传统的相似度计算和K-means聚类算法对XML文档结构进行大类的聚类,然后利用改进的数路径模型方法对大类进行更有效、更准确的XML文档分类。此方法可用于大

8、量不同领域的文本挖掘和信息检索,提高信息检索的查准率和查全率,或作为查找最相似文档的有效方法。2.文档表示模型XML文档可以被模型化为有序标签树,图1给出了一个XML文档的例子及

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。