基于结构与文本关键词相关度的XML网页分类研究.pdf

基于结构与文本关键词相关度的XML网页分类研究.pdf

ID:52768000

大小:408.34 KB

页数:9页

时间:2020-03-30

基于结构与文本关键词相关度的XML网页分类研究.pdf_第1页
基于结构与文本关键词相关度的XML网页分类研究.pdf_第2页
基于结构与文本关键词相关度的XML网页分类研究.pdf_第3页
基于结构与文本关键词相关度的XML网页分类研究.pdf_第4页
基于结构与文本关键词相关度的XML网页分类研究.pdf_第5页
资源描述:

《基于结构与文本关键词相关度的XML网页分类研究.pdf》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库

1、计算机研究与发展ISSN1000-1239!CN11-1777!TPJournalofComputerresearchandDevelopment43(8):1361"1367,2006!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!基于结构与文本关键词相关度的XML网页分类研究袁家政1,2须德1鲍泓21(北京交通大学计算机与信息技术学院北京100044)2(北京联合大学信息技术研究所北京100101)(jZyuan#sohu.com)AnEfficientXMLDocumentsCl

2、assificationMethodBasedonStructureandKeyWordsfreIuencyYuanJiaZheng1,2,XuDe1,andbao~ong21(SchoolofComPuterandInformationtechnology,BeijingJiaotongUnioersity,Beijing100044)2(InstituteofInformationtechnology,BeijingUnionUnioersity,Beijing100101)AbstractAccordingtotheXMLWebpagecharacter,

3、anefficientmethodforcomputingXMLdocumentsimilarity,positionweightandfreCuencyofkeywordsindocumentsispresented.ThensomefeaturesareselectedfromXMLdocumentsbasedonthemethodandamulti-classificationalgorithmofXMLWebpageisproposedusingsupportvectormachines.Inthisalgorithm,aCFK(classifierfe

4、aturekernel)ofcommonsimilarityfeaturesiscreatedfromeachsamplesetofXMLdocumentsclass.TheclasslabelofanXMLdocumentisdeterminedbycomputingsimilardistancebetweenatestXMLdocumentandeachCFK.Experimentalresultsprovetheeffectivenessoftheclassificationalgorithmandgoodperformanceformulti-class

5、ificationofXMLdocuments.KeyWordsXMLclassification;documentsstructure;keywordfeature;supportvectormachine摘要针对XML网页特点,提出了计算XML文档结构相似性、文档关键词出现的位置以及关键词频度的方法,根据计算的结果提取XML网页特征,同时设计了一种基于支持向量机的XML网页多类分类算法.算法通过XML文档的训练样本集为每一类文档建立基于相似公共特征的聚类核,计算测试样本中的文档与每个聚类核的相似度,判断该文档的所属类.实验证明该分类算法具有比较高的分类查全率

6、和查准率,能够较好地解决XML文档同时属于多个类的问题.关键词XML分类;文档结构;关键词特征;支持向量机中图法分类号TP311.135.4随着Internet技术的发展,XML成为网上数据于~TML,提出了一些效果较好的网页分类方法,表示和交换的主要格式,出现了大量丰富信息的如TFXIDF方法[1]、Naivebayes方法[2]、最近邻分类[3]、贝叶斯分类[3]、决策树[3]、支持向量机[3]、XML页面,如何有效地的利用这类的XML数据已成为Internet领域内亟待解决的一个重要问题.分[4]、Cohen在权值更新基础上的休Lewis线性分类器类技术的

7、出现,为我们处理Internet上的XML页面眠专家算法[5]等,这些算法基本上是基于文本特征提供了许多有效的方式.的统计分类,对于网页中的标识特征考虑较少或者近几年,国内外研究人员对于网页的分类侧重只考虑了小部分固定标识.由于XML含有大量的不收稿日期:2005-12-26;修回日期:2006-03-07基金项目:教育部科学技术研究重点项目(2002KJ124);北京市优秀人才培养资助项目(20051D0502206)1362计算机研究与发展2006,43()固定标识,与~TML相比较差异性较大,因此基于〈Conference〉~TML网页的分类方法不适合XM

8、L的网页分类.〈Name

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。