欢迎来到天天文库
浏览记录
ID:39703407
大小:2.73 MB
页数:53页
时间:2019-07-09
《中文文本分类系统的研究与实现》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、天津大学硕士学位论文中文文本分类系统的研究与实现姓名:王新丽申请学位级别:硕士专业:计算机应用技术指导教师:何丕廉20070501中文摘要随着信息技术的发展,文本资料的数量呈几何级增长,如何在众多的资料中快速准确的找到人们需要的信息,成为当前信息处理领域一个委待解决的闯题。基于人工智能的文本分类技术能够根据文本的语义内容,自动将文本划分到预定义的类别体系中,从而一定程度上解决了上述难题。本文对中文文本分类的关键技术进行了研究和探讨,如中文分词、特征项选择、特征项权重计算及常用的文本分类算法等。在特征选择方面,本文分析了互信息、信息
2、增益、CHI统计等常用的特征选择方法,指出由于这些方法的侧重点不同,有可能导致同一特征项在不同的特征选择方法中重要性程度相差很大。为了削弱单个特征选择方法的缺陷,本文使用多个特征选择方法的组合来进行特征项的选择,并实现了类中心分类法来验证不同的特征选择方法组合对分类精度的影响,实验结果表明,两种特征选择方法的组合(tWO.combine)较单个特征选择方法(one-method)和多个特征选择方法的组合(more.combine)性能最佳。通过对性能较好的组合特征选择方法的分析可以发现,它们均是基于CHI(Z2)统计的。传统的权重
3、算法,如TF—IDF(TermFrequencyandInverseDociarnentFrequency)、基于熵概念的粳重等都是在全部文档集合的焦度考虑特征项的重要性,不能体现特征项在不同类别中的重要程度差异。针对这一问题,本文提出使用反映特征项与类别相关程度的互信息来修正TF.IDF的改进权重算法,并实现了类中心狙KNN(K.NearestNeighbors)两种分类算法验证改进权重算法的优越性,实验结果表明改进的权重算法在两种分类方法上都不同程度的提高了分类的精度。关键词:文本分类;中文分词;特征项权重;特征选择ABSTR
4、ACTWiththedevelopmentofinformationtechnology,theamountoftextsincreasesexplosively.Howtofindtherequiredinformationfrommassiveinformationquicklyandcorrectly,becomeallimportantproblemintheinformationprocessingfield.Textclassification,theautomatedassigningofnaturallanguag
5、etextstopredefinedcategoriesbasedontheircontents,isapathtosolvingtheproblemabove.nekeytechniqueofChinesetextclassification,includingChinesesegmentation,featureselection,featureweightandclassificationmethodsisdiscussed.Thewidelyusedfeatureselectionmethods,suchasmutuali
6、nformation,informationgain,chi—statisticandSOon,arebasedondifferentrules,theymayscorethesamefeatureverydifferently.Inordertoovercomemeshortageofsinglemethod,thispaperconsidersthecombinationsoftwoormorefeatureselectionmethods.Experimentresultsshowthatthecombinationoftw
7、omethodsisbetterthanthatofsinglemethodandthecombinationofthreeormoremethods.Also,thecombinationoffeatureselectionmethods.whichperformwellareallbasedonchi—statistic.111etraditionalfeatureweightmethods(suchasTF—IDF,theweightbasedonentropy)justconsidertheimportanceoffeat
8、uresonthewholetextcollection.Theycannotreflecttheimportancedifferencesofonefeatureindifferenttextcategories.Againstthisprobl
此文档下载收益归作者所有