基于支持向量机与无监督聚类相结合的中文网页分类器

基于支持向量机与无监督聚类相结合的中文网页分类器

ID:37698606

大小:423.78 KB

页数:7页

时间:2019-05-29

基于支持向量机与无监督聚类相结合的中文网页分类器_第1页
基于支持向量机与无监督聚类相结合的中文网页分类器_第2页
基于支持向量机与无监督聚类相结合的中文网页分类器_第3页
基于支持向量机与无监督聚类相结合的中文网页分类器_第4页
基于支持向量机与无监督聚类相结合的中文网页分类器_第5页
资源描述:

《基于支持向量机与无监督聚类相结合的中文网页分类器》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、第24卷 第1期计  算  机  学  报Vol.24No.12001年1月CHINESEJ1COMPUTERSJan.2001基于支持向量机与无监督聚类相结合的中文网页分类器李晓黎 刘继敏 史忠植(中国科学院计算技术研究所 北京100080)摘 要 提出了一种将支持向量机与无监督聚类相结合的新分类算法,给出了一种新的网页表示方法并应用于网页分类问题.该算法首先利用无监督聚类分别对训练集中正例和反例聚类,然后挑选一些例子训练SVM并获得SVM分类器.任何网页可以通过比较其与聚类中心的距离决定采用无监督聚类方法或SVM分类器进行分类.该算法充分利用了SVM准确率高与无监督聚类速度快的优点.实验

2、表明它不仅具有较高的训练效率,而且有很高的精确度.关键词 支持向量机,聚类,网页分类中图法分类号:TP391AChineseWebPageClassifierBasedonSupportVectorMachineandUnsupervisedClusteringLIXiao2LiLIUJi2MinSHIZhong2Zhi(InstituteofComputingTechnology,ChineseAcademyofSciences,Beijing100080)AbstractThispaperpresentsanewalgorithmthatcombinesSupportVectorMach

3、ine(SVM)andunsupervisedclustering.Afteranalyzingthecharacteristicsofwebpages,itproposesanewvectorrepresentationofwebpagesandappliesittowebpageclassification.Givenatrainingset,thealgorithmclusterspositiveandnegativeexamplesrespectivelybytheunsupervisedclusteringalgorithm(UC),whichwillproduceanumbero

4、fpositiveandnegativecenters.Then,itselectsonlysomeoftheexamplestoinputtoSVMaccordingtoISUCalgorithm.Attheend,itcon2structsaclassifierthroughSVMlearning.AnytextcanbeclassifiedbycomparingthedistanceofclusteringcentersorbySVM.Ifthetextnearsoneclustercenterofacategoryandfarawayfromalltheclustercenterso

5、fothercategories,UCcanclassifyitrightlywithhighpossibility,other2wiseSVMisemployedtodecidethecategoryitbelongs.ThealgorithmutilizesthevirtuesofSVMandunsupervisedclustering.Theexperimentshowsthatitnotonlyimprovestrainingeffi2ciency,butalsohasgoodprecision.Keywordssupportvectormachine,clustering,text

6、classification日益重要的研究领域.传统上,网页分类是由人来完1 引 言成的.即人在分析了网页的内容后,给它一个比较合适的类别.很明显,这需要大量的人力资源.随着网Internet网上海量信息使得网页分类成为一个页信息的快速增长,特别是Internet上在线信息的收到日期:1999211217.本课题得到国家自然科学基金(69803010)、国家“八六三”高技术研究发展计划(863251129462010)资助.李晓黎,男,1969年生,博士研究生,主要研究方向为数据采掘、信息检索.刘继敏,男,1967年生,博士,主要研究方向为图像信息检索、人工智能.史忠植,男,1941年生,研

7、究员,博士生导师,主要研究方向为人工智能、知识工程.1期李晓黎等:基于支持向量机与无监督聚类相结合的中文网页分类器63增加,再靠人工的方式来处理是不切实际的.同时,训练速度.在识别阶段,分别计算待识别的网页同正由于分类可以在较大程度上解决目前网上信息杂乱例中心与反例中心的最短距离,若距离差较大,就直的现象,并方便用户准确地定位所需的信息和分流接用UC分类,否则用SVM进行分类.信息.因此,网页自动分类已成为一

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。