_图书情报工作_1999-2008年我国SVM文本分类文献计量分析

_图书情报工作_1999-2008年我国SVM文本分类文献计量分析

ID:38700255

大小:175.00 KB

页数:6页

时间:2019-06-17

_图书情报工作_1999-2008年我国SVM文本分类文献计量分析_第1页
_图书情报工作_1999-2008年我国SVM文本分类文献计量分析_第2页
_图书情报工作_1999-2008年我国SVM文本分类文献计量分析_第3页
_图书情报工作_1999-2008年我国SVM文本分类文献计量分析_第4页
_图书情报工作_1999-2008年我国SVM文本分类文献计量分析_第5页
资源描述:

《_图书情报工作_1999-2008年我国SVM文本分类文献计量分析》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库

1、1999-2008年我国SVM文本分类文献计量分析*本文系国家社科基金项目“自动文本分类技术研究”(编号:08CTQ003)、广东省社科规划项目“开源软件与数字图书馆建设探讨”(编号:06M03)研究成果之一。王彦明奉永桃奉国和华南师范大学经济管理学院信息管理系广州510006〔摘要〕检索获得1999年-2008年国内支持向量机文本分类研究论文,从来源数据库、发表时间、期刊分布等方面进行文献计量分析,按主题简要介绍该领域理论研究和应用研究两个层次的主要成果,对这些成果从内容和研究方法上进行评述,指出SVM文本分类的不足和缺点,对研究中存在的问题进行分析总结,使读者对该领域研究情

2、况全面认识,以期促进该领域进一步的深入发展。〔关键词〕支持向量机文本分类文献计量分析〔分类号〕TP316〔文献标识码〕AAnalysisofliteratureaboutSVMtextcategorizationfrom1999to2008inChinaWANGYanmingFENGYongtaoFENGGuoheSchoolofEconomicManagementCollege,SouthChinaNormalUniversity,Guangzhou510006[Abstract]:WesearchedthefieldofSVMtextclassificationandobt

3、ainedresearchingresultsduring1999-2008inChina.Bibliometricsanalysiswasdoneinmanyaspectssuchasthedatabasesource,publicationtime,journaldistributionandsoon.Twolayersachievementswhichinvolvetheoryandapplicationwereintroduced.Theseachievementsarereviewedintheaspectofcontentandresearchmethod.Wepo

4、intedoutthefaultsandshortcomingsofSVMtextclassification.Theproblemsexistingintheresearchwereanalyzedbriefly,sothatreadershaveacomprehensiveunderstandingofcurrentresearch.Wehopethiscanpromoteafurtherdevelopmentofthisfield.[Keywords]:SVMtextclassificationbibliometricsanalysis身处“信息丰富,知识贫乏”的时代,如

5、何在海量信息中高效地获取特定内容,具有重要的现实意义。文本分类采用信息处理、机器学习与统计学习理论,在网页分类、邮件过滤、搜索引擎、学科导航等方面有着深入的应用,已经成为信息处理现代化的关键。文本分类方法很多,但研究表明支持向量机(SupportVectorMachine,SVM)的分类性能尤其是泛化能力好于传统的分类方法。其基于结构风险最小化原理,求解化为一个线性约束的凸二次规划(QP)问题,解具有唯一性和全局最优性。近年来国内对SVM文本分类作了很多研究,此文对1999-2008年间的主要研究成果从文献特征到内容主题进行了统计分析和梳理,以便参考。1数据来源笔者以题名或关键

6、词“支持向量机”或“svm”,日期为1999年1月1日到2008年12月28日,对CNKI中的“中国学术期刊网络出版总库”、“中国优秀硕士论文全文数据库”和“中国博士学位论文全文数据库”三个数据库中进行跨库检索,得到的文献总量为6938篇,以题名或关键词为“文本分类”进行二次检索,经查重剔除得到文献174篇。其中期刊论文112篇,占64.37%,硕博士学位论文62篇,合占35.63%。2文献计量分析2.1论文发表年代分析6论文产出量的年代分布反映该研究的发展历史,并可以揭示其发展趋势。根据表1,我们可以分出两个阶段:一是从1999年到2003年的起始阶段,论文仅占总量的4.02

7、%。二是2004年至今的快速发展阶段(08年下降是因为网络数据库有滞后性)。随着信息技术和互联网的进一步发展,文本信息更加复杂,对文本自动分类技术提出了更高的要求,已有的文本分类算法都存在着相应的不足之处,渐渐难以满足实际要求,在这样的环境下,SVM文本分类方法从理论和应用上都得到广泛研究。国外对支持向量机概念提出是在20世纪90年代中后期,2000年左右开始出现大量的研究成果。对中文文本的分类,需要在吸收国外技术的基础上结合其特点进行改进。表1论文年代分布表年代19992000200120

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。