欢迎来到天天文库
浏览记录
ID:35125505
大小:1.84 MB
页数:58页
时间:2019-03-19
《鉴于一种中文文本分类方法的研究及实现》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、分类号:!里39111单位代码:!12三2密级:——申请北京机械工业学院工学硕士学位论文一种中文文本分类方法的研究及实现学科(专业):计算机应用技术研究生:张洁指导教师:周长胜副教授二oO六年二月摘要文本文件是目前各种计算机应用过程产生的输出结果中最为广泛的形式之一,因此在文本文件中蕴含了很多信息。但是当文本文件数目巨大时,尤其是网络的普及,使得通过网络更易产生和获得文件时,人们从文件中获得信息变得更加困难。文本分类可以使得人们无需逐个浏览文本文件来确认是否是自己所需文本,自动的将文本划分到人们事先
2、指定好的类别域中的正确类别,同时在分类过程中得到的分类模式及其它数据亦可应用于进一步的文本挖掘、智能搜索引擎、个性化软件助理等领域。本文在分析了文本分类系统的一般开发过程的基础上,增加了对分类模式的改进,改进了整个文本分类系统的开发过程。在特征建立阶段提出了文本摘要结构,引入了词条在文本不同位置时对文本分类结果的影响。在学习与知识模式提取阶段提出了候选机制,得到候选分类类别列表,使得系统除了提供了最佳分类类别外,还可以提供相似主题类别,即进行模糊分类。同时,还提出了分类模式调整机制,利用了候选分类类
3、别列表中的结果,采取调整算法对分类模式进行循环调整,最终达到分类模式的不断改进。在得出最终分类结果时,还应用了多参数评分机制、验证分类结果方案。其中多参数评分机制通过计算文本之间的相似度值,并结合候选类别、候选名次可以得到一个加权后的最终分类排名,以此确定最后分类类别。而验证分类结果方案,则依据候选分类类别列表,随机从训练文本集中抽取一定数目的文本来验证该列表,使得本系统得出的分类结果并不完全依赖于分类模式。本文详细论述了上述新概念、新技术,并在此基础上实现了一个文本分类系统,最后还给出了对这些新概
4、念和新技术的实验结果。实验证明,上述新概念、新技术确实对文本分类起到了一定的积极作用。关键词:文本分类文本挖掘特征提取AbstractThetextfilecontainsmuchinformationasthemostpopulartypeofoutputfrommostkindsofComputerapplication,butasthelargenumberoftext,especiallyasthepopularizationofnetwork,itisdifficulttogetthati
5、nformation.Thetextcategorizationcanmakethepeopletoknowwhetherthistextisthattheyneedornot,andneedn’treadthemonebyone.Itwillclassifythosetextsintotheproperclass,whichdefinedbyuserinadvance.Thistechnologycanbeusedintotextmining,intelligentsearchengine,and
6、theindividualsoftwareassistantfields.BasedontheanalysistothegeneraldevelopingprocessofTextCategorizationSystem,amodal—improvingmodelisadded.Itisallimprovementtothetextcategorization.Puttingforwardthetextabstractframeinthefeaturecreation,itconsidersthed
7、ifferentlocationthattheworditemsare.Bringingforwardthecandidatemechanisminthestudyandselectknowledgemodal,gainacandidateclasslist,whichmakethesystemCallsupplythesimilartopicclassbesidesthebestclass.Andalsointroducestheclassificationmodaladjustmentmecha
8、nism,whichusingtheresultinthecandidateclasslist,takingtheadjustmentalgorithmtodotheadjustcircularly,andmakingthemodalimprovingcontinually.Beforegettingtheendresult,itwillapplytothemulti-parametermarkmechanismandvalidationtheclassifyresu
此文档下载收益归作者所有