欢迎来到天天文库
浏览记录
ID:52482442
大小:280.52 KB
页数:5页
时间:2020-03-28
《基于粗糙集理论的文本分类属性约简算法.pdf》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、第36卷第5期东北电力大学学报Vo1.36.No.52016年1O月JournalOfNortheastDianliUniversityOct..2016文章编号:1005—2992(2016)05-0092-05基于粗糙集理论的文本分类属性约简算法韩玉,李美聪,郭新辰2(1.东北电力大学理学院,吉林吉林132012;2.海南热带海洋学院数学系,三亚572022)摘要:针对文本分类的特征空问高维问题,本文提出了一种基于粗糙集的属性约简算法及其改进的约简算法。利用该算法有效降低了文本特征向量的维数。通过利用20Newsgroups数据集进行试验测试,在召回率、准确率和F-1度的指标上均具有较
2、明显的优势。关键词:粗糙集;属性约简;文本分类中图分类号:O144.4文献标识码:A文本分类是指根据带有类别的文本集合的特点,根据每一个类别的文本子集合的共有特点,找出一个分类函数或分类模型分类器,根据该模型可以把其他文本映射到已有类别中的一个,从而实现自动对文本分类。粗糙集理论是建立在分类机制的基础上的,它将分类理解为在特定空间上的等价关系,而等价关系构成了对该空间的划分,它将知识理解为对数据的划分,每一被划分的集合称为概念,其主要思想是利用己知的知识库,将不精确或不确定的知识用己知的知识库中的知识来近似刻画。该理论与其他处理不确定不精确问题理论的区别是:它无需提供问题所需处理的数据集合
3、之外的任何先验信息,因此和其它理论有很强的互补性。在文本分类和粗糙集理论的基础上,提出了基于粗糙集的文本分类系统;研究了粗糙集理论中的属性约简算法,并找出合适的用于启发式属性约简的属性重要性衡量方法;对于粗糙集理论中的启发式属性约简算法进行改进,根据此约简算法提出一个基于改进启发式属性约简的粗糙集文本分类系统,实验结果表明:将改进后的属性约简算法运用在文本分类模型中,能够得到较好的分类效果。1基于粗糙集理论的属性约简1.1粗糙集理论粗糙集理论是20世纪80年代由波兰数学家Pawlak首先提出的一个分析数据的数学理论。它不需要任何预备的或额外的有关数据信息,能够有效地分析和处理不完备、不一致
4、、不精确的数据,在现代技术领域有广泛的应用。在粗糙集理论中,一个信息表定义为二元组,=(,A),其中非空有限集合U称为论域,令论域U=X,有集合簇F={,z,⋯,}上的知识表示为:6(x),(F)=Ul’收稿日期:2016一o4—12基金项目:吉林省教育厅科研项目(2015-248)作者简介:韩玉(1978一),男,吉林省洮南市人,东北电力大学理学院副教授,博士,主要研究方向:数理统计、数据挖掘第5期韩玉等:基于粗糙集理论的文本分类属性约简算法93其中:雷(置)和(置)表示上、下近似算子;(F)、(F)分别表示集合对集合簇的精度和质量。非空有限集合称为属性集。对于任一属性口∈A,存在一个信
5、息函数:一,称为属性n的值域。通常属性集可以划分为2个子集:条件属性集和决策属性集,分别用符号c和D表示,即A=CuD,此时的信息表S=(,A)称为决策表,根据粗糙集理论定义了文本分类决策表。1.2基于粗糙集的属性约简1.2.1属性约简基于粗糙集的特征选择5Z,tt做属性约简J,最终选择的特征集(属性集),称之为约简,约简中不可或缺的属性则叫核。约简就是通过选取数据集的重要属性,删除其中不相关的冗余属性的措施,保持最终得到的决策表的分类能力不变。给定信息系统S=U,A,PA,若ind(P)=ind(A),且不存在PCP使得ind(P)=ind(P),则P成为A的一个约简。约简是能够保留信息
6、系统(决策表)某个角度下区分能力的最小属性集。约简的结果可以有多个,所有约简的交集成为核(CORE),即信息系统Js中有CORE(S)=nRed(S)。1.2.2模型的建立(特征选择l1。。)二维决策表中每一行代表一个训练文本,每一列是它的一个属性。如果文本中不含有该特征词,则该词在这篇文本中的权重为0。其中∞表示特征t(i=1,2⋯凡)对文本d,(=1,2,⋯,m)分类的权重。训练文本集D=(d。,d,⋯,d)得到候选特征项集T=(t,t:,⋯,t)。将D作为论域,作为条件属性集,c表示对应文档所属的类别。文本类别c作为决策属性,c的值域Vc=(c。,c,⋯,Cp)构成文本分类决策表。表
7、1文本分类决策表在文本分类中,此决策表有如下特点:条件属性集规模庞大,即n值很大,原因是文本向量空间的高维性。因此本文后续工作就是对文本进行降维。1.3属性约简算法及其改进算法1.3.1属性约简算法的描述为了利用粗糙集理论中属性重要性的相关结论,首先介绍几个重要的定义。定义1:(属性子集的扩张分辨能力)令论域u=中,有集合簇F={,,⋯,X}上的知识,其中有acBcF,则a对的扩张分辨能力定义为:肋=∑I旦(置)l一∑l
此文档下载收益归作者所有