中文文本分类相关算法的研究与实现

中文文本分类相关算法的研究与实现

ID:32237930

大小:1.90 MB

页数:70页

时间:2019-02-02

中文文本分类相关算法的研究与实现_第1页
中文文本分类相关算法的研究与实现_第2页
中文文本分类相关算法的研究与实现_第3页
中文文本分类相关算法的研究与实现_第4页
中文文本分类相关算法的研究与实现_第5页
资源描述:

《中文文本分类相关算法的研究与实现》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、摘要随着信息技术的不断发展,特别是Intemet应用的普及,电子文本信息急剧增加,如何有效地组织和管理这些海量信息,并且能够快速、准确地获得用户所需要的信息是当今信息科学技术领域的一大挑战。对电子文本进行有效管理的方法之一就是文本分类。文本分类是一项重要的智能信息处理技术,在信息过滤、信息检索、文本数据库和数字图书馆等方面极具应用价值。文章从自然语言处理、文本挖掘、机器学习、模式识别等领域讨论文本分类的应用。介绍了中文文本分类技术及相关算法。设计并实现了一个中文文本分类系统,主要目的是发现中文文本分类相关算法的问题及规律,该系统包括训练和分类两大模块。

2、训练模块有:(1)中文文本预处理,实现了一个正向最大匹配分词算法,并根据实验生成了适合分类的停用词表;(2)特征选择,实现了信息增益(IG)、互信息(MD、交叉熵(cE)、z2统计和文档频率(DF)五种特征选择算法;(3)权重计算,实现了TF、TF*IDF、TF*特征评估函数值、TF*IDF*特征评估函数值等多种权重算法;(4)分类器构造,实现了类中心向量、贝叶斯和K近邻三种基于统计方法的文本分类算法。分类模块是对未标注类别的文本使用分类模型进行分类,然后对分类结果进行评价,并将评价结果反馈给训练模块,从而不断改进训练过程。通过实验分别对以上算法进行了

3、评测和比较,得到了相关参数的经验值和算法之间的较佳组合等,实验数据可用于信息检索、信息过滤、数字图书馆和网页分类等。关键词:中文文本分类,分词,特征选择,权重计算Abstractwiththerapiddevelopmentofinformationtechnology,especiallythepopularizationofInteractApplication,theelec打omctextinformationgreatlyinereases.Itisagreatchallengeforinformationscienceandtechnolo

4、gytoorganizeandprocesssolargeamountofdata,andfindouttheinterestinginformationforthellSd-squicklyandexactly.OnewayofmanagingthetextsefficientlyisTextAutomaticClassification.TextAutomaticClassificationisanimportantintelligentinformationprocessingmethod,whichiiofgreatapplicationval

5、ueinsuchfields勰informationfiltering,informationretrieval,textdatabase,digitallibraryandsoon.Thispaperdiscuss铝theapplicationsofTextClassificationinthedomainsofnaturelanguage,textmining,machinelearningandpatterndiscrimination.TheTextClassificationtechnologyandrelatedalgorithmsarei

6、ntroduced.AChineseTextAutomaticClassificationSystemisdesignedandimplementedforfindingouttheproblemsandrules缸allalgorithmsofTextClassification.Thesystcmhastrainingmoduleandclassifyingmodule.Trainingmoduleincludes:(1)Chinesetextpreprocessing.ChingsewordsegmentationbasedonFMMalgori

7、thmisimplemented.Andausefulstop-worddictionaryismadebyexperiment.(2)TermsselectiomFivealgofitlmasincludingInformationGain,MutualInformationO订D’矿Statistic,CrossEntropy(CE),DocumentFrequencypF)areimplemented.(3)Weightcomputing,VariousweightalgorithmsincludingTermFrequenc7frF),1PDE

8、TF+term'$evaluatingvalue,TF’IDF+ternl'sevaluati

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。