多类别科技文献自动分类系统

多类别科技文献自动分类系统

ID:33410395

大小:1.02 MB

页数:61页

时间:2019-02-25

多类别科技文献自动分类系统_第1页
多类别科技文献自动分类系统_第2页
多类别科技文献自动分类系统_第3页
多类别科技文献自动分类系统_第4页
多类别科技文献自动分类系统_第5页
资源描述:

《多类别科技文献自动分类系统》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、华中科技大学硕士学位论文多类别科技文献自动分类系统姓名:陈玉芹申请学位级别:硕士专业:计算机系统结构指导教师:袁平鹏20080606华中科技大学硕士学位论文摘要随着计算机与通讯技术的飞速发展、互联网的普及与应用,包括科技文献在内的各种文本信息呈爆炸式增长,这为人们合理有效地组织和管理海量的文本数据带来了极大的挑战。对科技文献等文本信息进行有效组织和管理通常都需要对文本进行自动分类。目前常用的文本分类方法主要有支持向量机(SupportVectorMachine,SVM)和k近邻(k-NearestNeighbor

2、,kNN),然而这些方法存在一些不足之处:支持向量机主要针对两类分类问题,不能直接应用于多类分类,且该方法应用于大数据集时训练速度较慢;k近邻方法对于样本容量较小的类域容易产生错分,且k的取值不容易确定。针对以上问题,提出了支持向量机和k近邻相结合的多类别分类方法(Multi-classSVM-kNN,MSVM-kNN),该方法首先采用支持向量机构建分类器,在该过程中利用增量学习方法提高了训练速度;然后针对不可分情况,采用k近邻方法来处理。另外,还对多类别多标签分类方法及自动分类的其他相关技术进行了研究,包括特征

3、取、特征项权重计算等。通过对文本分类相关技术的研究,根据“基于语义的科技文献检索与共享平台SemreX”的实际需要,设计并实现了多类别文献自动分类系统MALC(Multi-classAutomaticLiteratureCategorizationSystem)。使用20-Newsgroups数据集和ACM数据集进行了测试。MSVM-kNN方法在ACM数据集上的准确率、召回率和F-measure值分别为:90.18%、88.79%、0.89,而所测得的k近邻、支持向量机的这三个性能指标分别为:81.64%、77.

4、78%、0.8,86.11%、84.44%、0.85。测试结果表明:与传统的分类方法相比,该方法分类效率较高,且有较高的准确率、召回率和较好的稳定性。关键字:文本自动分类,文本表示,特征选取,支持向量机,k近邻I华中科技大学硕士学位论文AbstractWiththedevelopmentofcomputerandcommunicationtechnology,especiallytheglobalpopularizationandapplicationofInternet,allkindsoftextinform

5、ationgrowsexplosively.Andthemoderninformationsocietyisfacingthechallengeofhandlingmassivedocuments(includingpaper,technicalreport),news,emailandsoon.WiththehugenumberofdataavailableonInternet,thereisagrowingneedfortextcategorizationsoastohelpusersmanageanduti

6、lizethosedata.Textcategorization,whichassignstextdocumentstopre-specifiedcategories,playsakeyroleinorganizingthemassivesourcesofunstructuredtextinformation,suchasfilteringspamemails,classifyingnews,organizingdocuments.Theremanypopularalgorithmsbeenusedintextc

7、ategorization,suchasNaïveBayes,k-NearestNeighbor(kNN),SupportVectorMachine(SVM).However,thoseclassificationapproachesdonotperformwellineverycase,forexample,SVMisabinaryclassifier,cannotusedinmulti-classcategorizationdirectly;anditneedslongtimewhentraininglarg

8、edataset.kNNalwaysmisclassifythecategorythathaslessersamples;anditisdifficulttodeterminethevalueofK.cannoteffectivelysolvetheproblemofoverlappedcategoriesborders.Inthispaper,weproposeanap

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。