欢迎来到天天文库
浏览记录
ID:50424328
大小:3.35 MB
页数:72页
时间:2020-03-05
《基于改进向量空间模型的中文文本分类研究.pdf》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、基于改进向量空间模型的中文文本分类研究周昆2015年1月中图分类号:TP391UDC分类号:004.93基于改进向量空间模型的中文文本分类研究作者姓名周昆学院名称自动化学院指导教师戴亚平教授答辩委员会主席王庆林教授申请学位工学硕士学科专业控制科学与工程学位授予单位北京理工大学论文答辩日期2015年1月ResearchofChineseTextClassificationbasedonImprovedVectorSpaceModelCandidateName:KunZhouSchoolorDepartmen
2、t:AutomationFacultyMentor:Prof.YapingDaiChair,ThesisCommittee:Prof.QinglinWangDegreeApplied:MasterofPhilosophyMajor:ControlScienceandEngineeringDegreeby:BeijingInstituteofTechnologyTheDateofDefence:January,2015研究成果声明本人郑重声明:所提交的学位论文是我本人在指导教师的指导下进行的研究工作获得的研
3、究成果。尽我所知,文中除特别标注和致谢的地方外,学位论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得北京理工大学或其它教育机构的学位或证书所使用过的材料。与我一同工作的合作者对此研究工作所做的任何贡献均已在学位论文中作了明确的说明并表示了谢意。特此申明。签名:日期:摘要随着信息技术尤其是互联网相关技术的发展与成熟,这种开放的、自由的数据共享和流动方式造成了巨大的信息积累。一方面,人们渴望能够掌握足够充分的信息;但是另一方面,想要快速而且高效地从海量的、杂乱的数据中获取所需要的信息正在变得越来越
4、困难,出现所谓的“信息迷向”的现象。大规模层面上的文本处理越来越成为一个难题,因此,社会迫切需要一种大规模的文本信息处理手段,文本自动分类技术为大规模信息处理提供了技术支持。本文在对比了国内外文本分类技术发展现状的基础上,详细地介绍了基于向量空间模型的文本分类方法中的关键技术,针对影响中文文本分类结果的几个关键因素作出了分析。为了解决中文文本分词之后形成的特征空间存在的高纬度和稀疏性问题,本文提出了一种四维向量空间模型,利用支持向量机算法(SVM)设计相应实验验证该模型的有效性。同时,本文通过改进传统的特
5、征权值计算公式,设计了一种中文类别词典(SCC-Dict)自动构建的方法,解决了在缺少专家经验时基于类别词典分词法无法进行的问题。在类别词典自动构建法以及中文文本四维向量空间模型的基础上,本文设计并实现了一个面向新闻的中文本分类系统。该系统主要包含存储模块、文本预处理模块、分词模块、SCC-Dict构建模块、向量映射模块和分类模块。系统设计为动态形式,即面对每一次分类过程,利用实时信息来新建分类器,而不依赖于以往的模型和陈旧的样本。最后,通过实验表明文本所采用的分类方法在分类准确率和分类速度上均有一定的提
6、高,该方法已经被应用于实际工程项目。关键词:中文文本分类,SCC-Dict,SVM,四维向量空间模型IAbstractWiththedevelopmentandmaturityofinformationtechnologyespeciallyInternettechnology,suchanopen,free-stylewayofdatasharingandflowinghascausedahugeaccumulationofinformation.Ononehand,peopleareeagertoob
7、tainadequateinformation;andontheotherhand,quicklyandefficientlyretrievingtheneededcontentonlarge-scaleofinformationisbecomingincreasinglydifficult,whichistheso-called‘informationmisleading’phenomenon.Textprocessingonlarge-scalelevelisbecomingadifficultpro
8、blem.Therefore,itisurgentforatextualinformationprocessingtools.So,automatictextclassificationtechnologyisbornattherightmoment.Comparingthedomesticandinternationaltextclassificationdevelopment,adetailedintroductionof
此文档下载收益归作者所有