中文文本分类系统的研究与实现

中文文本分类系统的研究与实现

ID:39703407

大小:2.73 MB

页数:53页

时间:2019-07-09

中文文本分类系统的研究与实现_第1页
中文文本分类系统的研究与实现_第2页
中文文本分类系统的研究与实现_第3页
中文文本分类系统的研究与实现_第4页
中文文本分类系统的研究与实现_第5页
资源描述:

《中文文本分类系统的研究与实现》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、天津大学硕士学位论文中文文本分类系统的研究与实现姓名:王新丽申请学位级别:硕士专业:计算机应用技术指导教师:何丕廉20070501中文摘要随着信息技术的发展,文本资料的数量呈几何级增长,如何在众多的资料中快速准确的找到人们需要的信息,成为当前信息处理领域一个委待解决的闯题。基于人工智能的文本分类技术能够根据文本的语义内容,自动将文本划分到预定义的类别体系中,从而一定程度上解决了上述难题。本文对中文文本分类的关键技术进行了研究和探讨,如中文分词、特征项选择、特征项权重计算及常用的文本分类算法等。在特征选择方面,本文分析了互信息、信息

2、增益、CHI统计等常用的特征选择方法,指出由于这些方法的侧重点不同,有可能导致同一特征项在不同的特征选择方法中重要性程度相差很大。为了削弱单个特征选择方法的缺陷,本文使用多个特征选择方法的组合来进行特征项的选择,并实现了类中心分类法来验证不同的特征选择方法组合对分类精度的影响,实验结果表明,两种特征选择方法的组合(tWO.combine)较单个特征选择方法(one-method)和多个特征选择方法的组合(more.combine)性能最佳。通过对性能较好的组合特征选择方法的分析可以发现,它们均是基于CHI(Z2)统计的。传统的权重

3、算法,如TF—IDF(TermFrequencyandInverseDociarnentFrequency)、基于熵概念的粳重等都是在全部文档集合的焦度考虑特征项的重要性,不能体现特征项在不同类别中的重要程度差异。针对这一问题,本文提出使用反映特征项与类别相关程度的互信息来修正TF.IDF的改进权重算法,并实现了类中心狙KNN(K.NearestNeighbors)两种分类算法验证改进权重算法的优越性,实验结果表明改进的权重算法在两种分类方法上都不同程度的提高了分类的精度。关键词:文本分类;中文分词;特征项权重;特征选择ABSTR

4、ACTWiththedevelopmentofinformationtechnology,theamountoftextsincreasesexplosively.Howtofindtherequiredinformationfrommassiveinformationquicklyandcorrectly,becomeallimportantproblemintheinformationprocessingfield.Textclassification,theautomatedassigningofnaturallanguag

5、etextstopredefinedcategoriesbasedontheircontents,isapathtosolvingtheproblemabove.nekeytechniqueofChinesetextclassification,includingChinesesegmentation,featureselection,featureweightandclassificationmethodsisdiscussed.Thewidelyusedfeatureselectionmethods,suchasmutuali

6、nformation,informationgain,chi—statisticandSOon,arebasedondifferentrules,theymayscorethesamefeatureverydifferently.Inordertoovercomemeshortageofsinglemethod,thispaperconsidersthecombinationsoftwoormorefeatureselectionmethods.Experimentresultsshowthatthecombinationoftw

7、omethodsisbetterthanthatofsinglemethodandthecombinationofthreeormoremethods.Also,thecombinationoffeatureselectionmethods.whichperformwellareallbasedonchi—statistic.111etraditionalfeatureweightmethods(suchasTF—IDF,theweightbasedonentropy)justconsidertheimportanceoffeat

8、uresonthewholetextcollection.Theycannotreflecttheimportancedifferencesofonefeatureindifferenttextcategories.Againstthisprobl

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。