基于粗糙集的文本分类方法研究.pdf

基于粗糙集的文本分类方法研究.pdf

ID:52768759

大小:258.21 KB

页数:5页

时间:2020-03-30

基于粗糙集的文本分类方法研究.pdf_第1页
基于粗糙集的文本分类方法研究.pdf_第2页
基于粗糙集的文本分类方法研究.pdf_第3页
基于粗糙集的文本分类方法研究.pdf_第4页
基于粗糙集的文本分类方法研究.pdf_第5页
资源描述:

《基于粗糙集的文本分类方法研究.pdf》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库

1、中文信息学报第19卷第2期JOURNALOFCHINESEINFORMATIONPROCESSINGVol119No12文章编号:1003-0077(2005)02-0066-05①基于粗糙集的文本分类方法研究卢娇丽,郑家恒(山西大学计算机与信息技术学院,山西太原030006)摘要:本文旨在利用粗糙集优越的约简理论对文本进行分类。主要完成了以下几个方面的任务:对文本进行了预处理;改进了Okapi权重计算公式,并对权值进行了离散化;实现了属性约简和规则抽取,首先利用区分矩阵对特征向量维数进行了初次压缩,然后通过相对约简计算再次压缩了特征向量维数,并生成了决策规则;采取了规则合成的策略,生成最终的

2、决策规则;设计了一种文本与规则的匹配算法,使匹配过程尽可能简单有序。试验结果表明该方法是行之有效的。关键词:人工智能;自然语言处理;文本分类;粗糙集;决策规则中图分类号:TP391文献标识码:ATheResearchofTextCategorizationBasedonRoughSetLUJiao2li,ZHENGJia2heng(Instituteofcomputerandinformationtechnology,Taiyuan,Shanxi030006,China)Abstract:Thispaperistofulfilltextcategorizationtasksbyusingthe

3、perfectreductiontheoryofroughset.Itmainlyfin2ishedthefollowingseveraljobs.Pretreatedthedocuments.ImprovedtheOkapitermweightingformula.Italsoseparatedthetermweightingandcompletedattributesreductionandrulesextractiontasks.Firstlyitreducedthefeaturevectordimensionsbyusingdiscerniblematrix.Thenreducedit

4、againbycomputingrelativereductions.Finallyitproducedthedecisionrulesandemployedtherule2combinedtacticstoproducethefinaldecisionrules.Designedanalgorithmformatchingdocumentstorulessothatthematchingprocessioncouldbeassimpleandorderlyaspossible.Theresultsoftheexperimentindicatethattheapproachiseffectiv

5、e.keywords:artificialintelligence;naturallanguageprocessing;textcategorization;roughset;decisionrule1引言文本分类是中文信息处理的一个重要的研究领域。其目标是在分析文本内容的基础上,给文本分配一个或多个比较合适的类别,从而提高文本检索、文本存储等应用的处理效率。目前已经有许多方法应用到该领域。如支持向量机方法(SVM)、K近邻方法(KNN)、朴素贝叶斯方法(NaÇveBayes)、决策树方法(DecisionTree)等等。与这些方法相比将粗糙集理论用于分类有以下优点:能够获得分类所需的最小特征

6、属性集,可以在不影响分类精度的条件下降低特征向量的维数;可以得到最简的显式表达的分类规则。而其它方法则有的无法得到显式规则,如朴素贝叶斯方法和K近邻方法,有的得到的规则含有大量的冗余条件,如决策树方法。①收稿日期:2004-06-20基金项目:国家自然科学基金资助项目(60473139)作者简介:卢娇丽(1979—),女,硕士研究生,研究方向为自然语言处理.·66·在本文中,我们首先将文本表示为特征词语集,然后,用改进后的Okapi权重计算公式来计算词语的权重,之后,将词语权重离散化,用决策表表达知识,通过属性约简,得到分类的决策规则,最后根据决策规则对待分类文本进行分类。2文本的形式化描述2

7、11文本的向量表示用简单而准确的方法将文档表示成计算机能够处理的形式是进行文本分类的基础。目前,在信息处理中,文本有向量空间模型、语义网络、框架模型等表示方法。其中,向量空间模型得到了广泛的应用。特征项一般可以选择字、词、词组或概念。根据实验结果,普遍认为选取词作为特征项要优于字和词组,概念特征虽然能更好地表示文本,但是却相对复杂。在本文中,我们对文本分词、过滤掉停用词之后把剩余的词语作为特征项,

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。