欢迎来到天天文库
浏览记录
ID:33631176
大小:5.64 MB
页数:58页
时间:2019-02-27
《加权贝叶斯增量学习中文文本分类研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、TheⅥ佬ightedB≯yescilaanssIinficcraet曲iQoennstatuld呈yealllin蔫黼I吣吣哪帆眦傩州㈥byHouKaiB.E.(NanjingUniversityofScience&Technology)201AthesissubmittedinpartialsatisfactionoftheRequirementsforthedegreeofMasterofSciencelnComputerTechnologylnChangshaUniversityofSci
2、ence&TechnologySupervisorProfessorChenXiMarch,2013长沙理工大学学位论文原创性声明本人郑重声明:所呈交的论文是本人在导师的指导下独立进行研究所取得的研究成果。除了文中特另JDi:i以标注引用的内容外,本论文不包含任何其他个人或集体已经发表或撰写的成果作品。对本文的研究做出重要贡献的个人和集体,均已在文中以明确方式标明。本人完全意识到本声明的法律后果由本人承担。作者签名:弋荦蔓∥日期:2。13年石月多日学位论文版权使用授权书本学位论文作者完全了解学校有
3、关保留、使用学位论文的规定,同意学校保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅。本人授权长沙理工大学可以将本学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。本学位论文属于1、保密口,在年解密后适用本授权书。2、不保密娥(请在以上相应方框内打“√”)作者签名:1;_鼬刷醴辄乍瓿日期:2013年毛月弓日日期:2013年6月3日摘要伴随着现代信息技术的高速发展,尤其是因特网的普及应用,网络上爆炸式增长的数据信息,该如何
4、对这些信息进行合理自动的处理,保留住那些有效的大型文本数据集合就成为了当今一个非常重要的研究课题。本文讨论了中文文本分类的文本预处理技术、向量空间模型、自动分词策略等,并且通过大量的实验研究了信息增益(IG)、互信息(MI)、交叉熵(cE)、x~2统计(CHI)以及文本证据权这5种不同的特征选择算法对分类算法性能表现的影响。在诸多文本分类算法中朴素贝叶斯算法由于其健壮性和简单性一直都处于业界重点研究的行列。在条件独立性假设前提下传统的朴素贝叶斯分类器往往都默认数据集中所有特征权值都是相等的,可事实
5、上并非如此,不同的特征属性对于不同类别的数据集所表现出来的影响力必然是不一样的,为此,本文便提出了一个权均值的概念,是指属于同一类别但非同一文本的同一特征项权值总和在该类别中的平均值,本文用此权均值来对朴素贝叶斯的性能加以提升;当面临有大量新增数据到来,传统的贝叶斯方法就需要重新把之前的所有样本数据都全部重新学习一次,这样不仅会耗费大量时间而且操作起来也相当麻烦,为此我们便引入了一种增量学习的方法,其学习的过程就是通过使每一次对测试集分类损失最小化的原则来选取每一次的新增样本直至新增样本集为空,由
6、于这种增量学习的方法我们只需要少量的基础训练样本集就能实现对文本的分类。综合上述两种方案,本文提出了一种基于加权贝叶斯的增量学习方法并通过大量实验对这这种所提方法的分类性能进行验证。实验证明,该加权增量学习方法确能产生良好的分类效果。关键词:朴素贝叶斯分类:权均值;向量空间模型;增量学习AbstractAlongwiththehigh—speeddevelopmentofmodeminformationtechnology,especiallythepopularizationofInteract
7、application,theexplosivegrowthofdataandinformationonthenetwork,howtoautomaticprocessingoftheinformationinareasonablemannertokeeptheeffectivelarge—scaletextdatacollectionhasbecometoday’Saveryimportantresearchsubject.Thispaperdiscussedthepreprocessingte
8、chniqueofChinesetextclassificationthevectorspacemodel,automaticsegmentationstrategy,etc.AndthroughalotofexperimentalresearchontheInformationGain(IG),MutualInformation(MI),CrossEntropy(CE),X~2Statistics(CHI)thesedifferenttextfeatureselectionalg
此文档下载收益归作者所有