基于结构与文本关键词相关度的XML网页分类研究.pdf

ID：52768000

大小：408.34 KB

页数：9页

时间：2020-03-30

资源描述：

《基于结构与文本关键词相关度的XML网页分类研究.pdf》由会员上传分享，免费在线阅读，更多相关内容在应用文档-天天文库。

1、计算机研究与发展ISSN1000-1239!CN11-1777!TPJournalofComputerresearchandDevelopment43（8）：1361"1367，2006!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!基于结构与文本关键词相关度的XML网页分类研究袁家政1，2须德1鲍泓21（北京交通大学计算机与信息技术学院北京100044）2（北京联合大学信息技术研究所北京100101）（jZyuan#sohu.com）AnEfficientXMLDocumentsCl

2、assificationMethodBasedonStructureandKeyWordsfreIuencyYuanJiaZheng1，2，XuDe1，andbao~ong21（SchoolofComPuterandInformationtechnology，BeijingJiaotongUnioersity，Beijing100044）2（InstituteofInformationtechnology，BeijingUnionUnioersity，Beijing100101）AbstractAccordingtotheXMLWebpagecharacter，

3、anefficientmethodforcomputingXMLdocumentsimilarity，positionweightandfreCuencyofkeywordsindocumentsispresented.ThensomefeaturesareselectedfromXMLdocumentsbasedonthemethodandamulti-classificationalgorithmofXMLWebpageisproposedusingsupportvectormachines.Inthisalgorithm，aCFK（classifierfe

4、aturekernel）ofcommonsimilarityfeaturesiscreatedfromeachsamplesetofXMLdocumentsclass.TheclasslabelofanXMLdocumentisdeterminedbycomputingsimilardistancebetweenatestXMLdocumentandeachCFK.Experimentalresultsprovetheeffectivenessoftheclassificationalgorithmandgoodperformanceformulti-class

5、ificationofXMLdocuments.KeyWordsXMLclassification；documentsstructure；keywordfeature；supportvectormachine摘要针对XML网页特点，提出了计算XML文档结构相似性、文档关键词出现的位置以及关键词频度的方法，根据计算的结果提取XML网页特征，同时设计了一种基于支持向量机的XML网页多类分类算法.算法通过XML文档的训练样本集为每一类文档建立基于相似公共特征的聚类核，计算测试样本中的文档与每个聚类核的相似度，判断该文档的所属类.实验证明该分类算法具有比较高的分类查全率

6、和查准率，能够较好地解决XML文档同时属于多个类的问题.关键词XML分类；文档结构；关键词特征；支持向量机中图法分类号TP311.135.4随着Internet技术的发展，XML成为网上数据于~TML，提出了一些效果较好的网页分类方法，表示和交换的主要格式，出现了大量丰富信息的如TFXIDF方法［1］、Naivebayes方法［2］、最近邻分类［3］、贝叶斯分类［3］、决策树［3］、支持向量机［3］、XML页面，如何有效地的利用这类的XML数据已成为Internet领域内亟待解决的一个重要问题.分［4］、Cohen在权值更新基础上的休Lewis线性分类器类技术的

7、出现，为我们处理Internet上的XML页面眠专家算法［5］等，这些算法基本上是基于文本特征提供了许多有效的方式.的统计分类，对于网页中的标识特征考虑较少或者近几年，国内外研究人员对于网页的分类侧重只考虑了小部分固定标识.由于XML含有大量的不收稿日期：2005-12-26；修回日期：2006-03-07基金项目：教育部科学技术研究重点项目（2002KJ124）；北京市优秀人才培养资助项目（20051D0502206）1362计算机研究与发展2006，43（）固定标识，与~TML相比较差异性较大，因此基于〈Conference〉~TML网页的分类方法不适合XM

8、L的网页分类.〈Name

当前文档最多预览五页，下载文档查看全文

侵权申诉



1 1 2 3 4 5 / 9



此文档下载收益归作者所有

当前文档最多预览五页，下载文档查看全文

温馨提示：
1. 部分包含数学公式或PPT动画的文件，查看预览时可能会显示错乱或异常，文件下载后无此问题，请放心下载。
2. 本文档由用户上传，版权归属用户，天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容，确认文档内容符合您的需求后进行下载，若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误，付费完成后未能成功下载的用户请联系客服处理。

基于结构与文本关键词相关度的XML网页分类研究.pdf

基于结构与文本关键词相关度的XML网页分类研究.pdf

相关文章

相关标签