svm-knn组合改进算法在专利文本分类中的应用

svm-knn组合改进算法在专利文本分类中的应用

ID:11597180

大小:36.50 KB

页数:13页

时间:2018-07-12

svm-knn组合改进算法在专利文本分类中的应用_第1页
svm-knn组合改进算法在专利文本分类中的应用_第2页
svm-knn组合改进算法在专利文本分类中的应用_第3页
svm-knn组合改进算法在专利文本分类中的应用_第4页
svm-knn组合改进算法在专利文本分类中的应用_第5页
资源描述:

《svm-knn组合改进算法在专利文本分类中的应用》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、SVM-KNN组合改进算法在专利文本分类中的应用SVM-KNN组合改进算法在专利文本分类中的应用李程雄-丁月华z文贵华2(广东粤华发电有限责任公司信息分部,广州510731)(华南理工大学计算机应用工程研究所,广州510640)E—mail:Lexl218@21on.COrn摘要提出了基于支持向量机的专利文本分类器的总体设计方案和实现方法;提出并分析了该分类器的改进算法SVM-KNN组合改进算法.文章对两种算法进行了大量的实验并对实验结果进行比较分析,在此基础上得出了三个结论.关键词支持向量杌KNN专利分类最优分类面

2、文章编号1002—8331一(2006)20—0193-03文献标识码A中图分类号TP181ApplicationofSVM-KNNCombinationImprovementAlgorithmonPatentTextClassificationLiChengxiongDingYuehuazWenGuiima2(InformationDivision,GuangdongYuehuaPowerCompanyLTD.,Guangzhou510731)(ResearchInstituteofComputerApplicat

3、ion,SouthChinaUniversityofTechnology,Guangzhou510640)Abstract:Itnarratestheoveralldesignplanandimplementationmethodofpatenttextclassificationmachineresultingfromsupportvectormachine;proposesandanalyzesitsimprovementalgorithmSVM-KNNcombinationimprovementalgorith

4、m;andagreatdealoftestsonclassificationmachinearecarriedouttotwoalgorithmsandthetestingresultsarecomparedandanalyzed.drawsth/~econclusionsinthisfoundation.Keywords:supportvectormachine,KNN,patentclassification,optimalhyperplane在当今全球化经济的时代.专利技术已成为国家或地区竞争力的核心,专利知识

5、产权越来越受到企业的重视.因此,近几年的专利申请量迅速增长.但是目前专利分类仍是采用传统的手工分类,这种分类的方法效率低下,存在许多弊端.如周期长,费用高,效率低.分类结果一致性不高等问题.专利申请量的激增一方面增加了对快速,自动文本分类的迫切需求,另一方面又为基于数据挖掘技术的文本分类方法准备了充分的资源.因此.计算机辅助专利分类成为大势之所趋【】1.当前对支持向量机的研究是一个热点,支持向量机是基于统计学习理论的机器学习方法,有一套坚实的理论基础.遗憾的是.虽然支持向量机在理论上有很突出的优势,但与其理论研究相比

6、.应用研究尚相对比较滞后.目前只有比较有限的实验研究报道.且多属仿真和对比实验.研究目前利用支持向量机实现文本分类的现状可以发现.虽然存在很多这样的应用系统,但分类对象都是新闻资料或网页资料,而对于应用于中国专利的分类则还没有.所以这也是本文的一个创新点伫l.但目前在SVM的应用中还存在一些问题.如对不同的应用问题核函数参数的选择较难,对较复杂问题其分类精度不是很高以及对大规模分类问题训练时间长等.已有的解决方法包括建立分类性能的评价函数.然后对SVM中的核函数的参数进行优化.或者使用直推方法对给定待样本设计最优的S

7、VM;所有这些方法的设计和计算都非常复杂,实现的代价都很高.因此系统采用了SVM—KNN组合算法对分类器进行改进.并取得了一定的效果.1SVM—KNN(KSVM算法)组合改进算法介绍有关支持向量机的基本知识和原理可以参考文献【3~6】.近邻法(简称NN)是模式识别非参数法中最重要的方法之一,NN的一个很大特点是将各类中全部样本点都作为"代表点".INN是将所有训练样本都作为代表点.因此在分类时需要计算待识别样本到所有训练样本的距离.分类结果就是与最近的训练样本所属于的类别.KNN是INN的推广.即分类时选出的k个最近

8、邻,看这k个近邻中的多数属于哪一类.就把分到哪一类.我们对SVM分类时错分样本的分布进行分析发现.SVM分类器和其它的分类器一样.其出错样本点都在分界面附近.这提示我们必须尽量利用分界面附近所提供的信息以提高分类性能.由SVM理论知道,分界面附近的样本基本上都是支持向量.同时SVM可以看成每类只有一个代表点的最近邻(NearstNeighhou

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。