基于粗糙集理论的文本分类算法研究_林珣.pdf

基于粗糙集理论的文本分类算法研究_林珣.pdf

ID:52768264

大小:188.15 KB

页数:3页

时间:2020-03-30

基于粗糙集理论的文本分类算法研究_林珣.pdf_第1页
基于粗糙集理论的文本分类算法研究_林珣.pdf_第2页
基于粗糙集理论的文本分类算法研究_林珣.pdf_第3页
资源描述:

《基于粗糙集理论的文本分类算法研究_林珣.pdf》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库

1、第38卷第11期计算机科学Vol.38No.112011年11月ComputerScienceNov2011基于粗糙集理论的文本分类算法研究林珣1,223李志蜀周勇(西南财经大学经济信息工程学院成都610071)12(四川大学计算机学院成都610064)(华兴职业技术学院成都610071)3摘要文本分类是中文信息处理的重要研究领域。给文本分配一个或多个不同的类别,可提高文本检索和存储的处理效率。粗糙集是一种不需要任何先验信息的分类方法,通过对文本分词、过滤掉停用词之后把剩余的词语作为特征项,然后把文本用向量空间模型表示出来,将文本集转化成不带决策属性的信

2、息系统,用粗糙集理论中核心内容属性约简实现对文本的分类。实验表明,该方法的查准率和查全率都有所提高。关键词文本分类,粗糙集,约简中图法分类号TP391文献标识码ATextClassificationAlgorithmStudyBasedonRoughSetTheory1,223LINXunLiZhi-shuZHOUYong(SchoolofEconomicInformationEngineering,SouthwesternUniversityofFinanceandEconomics(SWUFE),Chengdu610074,China)1(Schoo

3、lofComputer,SichuanUniversity(SCU),Chengdu610064,China)2(HuaxingVocationalandTechnicalCollege,Chengdu610071,China)3AbstractTextdatasetistransformedtoinformationsystemwithoutattributeofdecisionmakingandthecorecontentofattributereductionhasbeenappliedtotextclassification.Experiment

4、showsthattheprecisionrateandrecallrateareenhancedinthismethod;furthermore,itdoesnotrequireanyaprioriinformation.KeywordsTextclassification,Roughset,Reduction文本分类(TextCategorization)是中文信息处理重要的U={u1,u2,…,un}是具有n个元素的非空集,称为对象空间,研究领域,其目标是在分析文本内容的基础上,给文本分配一U中的元素称为对象,A={a1,a2,…,am}也是一个非

5、空有限个或多个比较合适的类别,从而提高文本检索、存储等应用的集,A中的元素a称为属性,V=∪Va,Va是属性a的值域,a∈A处理效率。在常用的文本分类算法中,如支持向量机方法、Kf:U×A→V是一个信息函数。近邻方法、朴素贝叶斯方法、决策树方法,每个文本都用维数从信息系统的定义可以得到:特别高的向量来描述,其向量维数通常高达上万维,即使处理(1)信息函数为每个对象的每个属性赋予一个信息值,即[1]。能力最强的计算机也难以处理a∈A,x∈U,有f(x,a)∈Va;很多学者运用粗糙集理论中的约简方法,约去不重要的(2)如果在对象集中没有重复元素,那么一个信

6、息系统就信息,生成文本的分类规则。不过,文献[2-5]在应用粗糙集是一个关系数据库。理论进行文本分类时,利用人工把文本集划分成不同的类,并定义2在信息系统S=〈U,A,V,f〉中,任意属性子集且把每个文本归于不同的类,进而形成决策属性,把文本集形pA,称二元关系ind(P)={(x,y)∈U×U|a∈P,f(x,成一个决策信息系统,再利用粗糙集中的约简方法。文献[6,a)=f(y,a)}为属性子集P的不可分辨关系。如果(x,y)∈7]利用模糊聚类的方法把文本集聚类,把文本归属于类的结ind(P),那么称X和Y是P不可分辨的。果作为决策属性,生成决策信

7、息系统,然后再利用粗糙集对决很显然,对于pA,不可分辨关系ind(P)是等价关策表进行约简。这两种方法都存在着人为地把信息系统转化系。符号U/ind(P)(简记为U/P)表示不可分辨关系ind(P)成决策系统的缺点,本文把文本集直接转化成信息系统,运用在U上导出的划分。粗糙集理论对信息系统直接约简,找到文本集特征词约简后定义3在信息系统S=〈U,A,V,f〉中,属性子集A1的特征词核集合,进而得到文本集的分类器。A,A2=A1∪{r},它们导出的等价类分别为:U/A1={X1,X2,…,Xn},U/A2={Y1,Y2,…,Ym},如果对于任意Xi∈

8、U/A11基本概念都存在Y0∈U/A2,使得XiY0,则称属性r为A2中A1不

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。