欢迎来到天天文库
浏览记录
ID:52768000
大小:408.34 KB
页数:9页
时间:2020-03-30
《基于结构与文本关键词相关度的XML网页分类研究.pdf》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库。
1、计算机研究与发展ISSN1000-1239!CN11-1777!TPJournalofComputerresearchandDevelopment43(8):1361"1367,2006!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!基于结构与文本关键词相关度的XML网页分类研究袁家政1,2须德1鲍泓21(北京交通大学计算机与信息技术学院北京100044)2(北京联合大学信息技术研究所北京100101)(jZyuan#sohu.com)AnEfficientXMLDocumentsCl
2、assificationMethodBasedonStructureandKeyWordsfreIuencyYuanJiaZheng1,2,XuDe1,andbao~ong21(SchoolofComPuterandInformationtechnology,BeijingJiaotongUnioersity,Beijing100044)2(InstituteofInformationtechnology,BeijingUnionUnioersity,Beijing100101)AbstractAccordingtotheXMLWebpagecharacter,
3、anefficientmethodforcomputingXMLdocumentsimilarity,positionweightandfreCuencyofkeywordsindocumentsispresented.ThensomefeaturesareselectedfromXMLdocumentsbasedonthemethodandamulti-classificationalgorithmofXMLWebpageisproposedusingsupportvectormachines.Inthisalgorithm,aCFK(classifierfe
4、aturekernel)ofcommonsimilarityfeaturesiscreatedfromeachsamplesetofXMLdocumentsclass.TheclasslabelofanXMLdocumentisdeterminedbycomputingsimilardistancebetweenatestXMLdocumentandeachCFK.Experimentalresultsprovetheeffectivenessoftheclassificationalgorithmandgoodperformanceformulti-class
5、ificationofXMLdocuments.KeyWordsXMLclassification;documentsstructure;keywordfeature;supportvectormachine摘要针对XML网页特点,提出了计算XML文档结构相似性、文档关键词出现的位置以及关键词频度的方法,根据计算的结果提取XML网页特征,同时设计了一种基于支持向量机的XML网页多类分类算法.算法通过XML文档的训练样本集为每一类文档建立基于相似公共特征的聚类核,计算测试样本中的文档与每个聚类核的相似度,判断该文档的所属类.实验证明该分类算法具有比较高的分类查全率
6、和查准率,能够较好地解决XML文档同时属于多个类的问题.关键词XML分类;文档结构;关键词特征;支持向量机中图法分类号TP311.135.4随着Internet技术的发展,XML成为网上数据于~TML,提出了一些效果较好的网页分类方法,表示和交换的主要格式,出现了大量丰富信息的如TFXIDF方法[1]、Naivebayes方法[2]、最近邻分类[3]、贝叶斯分类[3]、决策树[3]、支持向量机[3]、XML页面,如何有效地的利用这类的XML数据已成为Internet领域内亟待解决的一个重要问题.分[4]、Cohen在权值更新基础上的休Lewis线性分类器类技术的
7、出现,为我们处理Internet上的XML页面眠专家算法[5]等,这些算法基本上是基于文本特征提供了许多有效的方式.的统计分类,对于网页中的标识特征考虑较少或者近几年,国内外研究人员对于网页的分类侧重只考虑了小部分固定标识.由于XML含有大量的不收稿日期:2005-12-26;修回日期:2006-03-07基金项目:教育部科学技术研究重点项目(2002KJ124);北京市优秀人才培养资助项目(20051D0502206)1362计算机研究与发展2006,43()固定标识,与~TML相比较差异性较大,因此基于〈Conference〉~TML网页的分类方法不适合XM
8、L的网页分类.〈Name
此文档下载收益归作者所有