欢迎来到天天文库
浏览记录
ID:9131851
大小:118.29 KB
页数:16页
时间:2018-04-18
《基于信息增益的中文文本关联分类》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库。
1、基于信息增益的中文文本关联分类关联分类是一种通过挖掘训练集中的关联规则,并利用这些规则预测新数据类属性的分类技术。最近的研究表明,关联分类取得了比传统的分类方法如C4.5更高的准确率。现有的基于支持度一置信度架构的关联分类方法仅仅是选择频繁文字构建分类规则,忽略了文字的分类有效性。本文提出一种新的ACIG算法,结合信息增益与FoilGain在中文文本中选择规则的文字,以提高文字的分类有效性。实验结果表明,ACIG算法比其他关联分类算法(CPAR)有更高的准确率。,供学习和研宄使用,己的信息,如果需耍分享,请保留
2、本段说明。关键词:计算机应用;中文信息处理;信息增益;关联分类;文本分类TP391A1引言中文文本分类是中文信息处理的经典研究方向之一,有着极其重要的应用价值。中文文本分类的核心技术是构建一个具有高准确度和较高速度的分类器,它从文本训练集中学文字属性和分类标号之间的关系,从而实现对新的中文文本(标号未知)的分类。中文文本分类在中文信息检索、档案管理和中文新闻主题追踪等方面都有重要应用。目前,主要的中文文本分类方法有基于粗糙集的分类方法[1]、基于Bootstrapping模型的分类方法[2]、朴素贝叶斯分类方法
3、[3]以及支持向量机分类方法[4]等。近年来,一种结合关联规则挖掘和分类规则挖掘的关联分类算法[5-7]引起人们的广泛关注。关联分类算法结合了关联规则挖掘过程和分类规则挖掘过程,比传统的分类方法如C4.5[8]和Ripper[9]有更好的分类效果。这种关联分类算法通过在训练集中挖掘关联规则来对未知标号文本进行分类。它一般包含三个步骤:(1)规则提取:利用数据挖掘算法,从训练集中挖掘满足用户指定的最小支持度要求的候选规则集;(2)规则裁剪:评价所有的候选规则,保帘满足用户指定最小置信度的规则,构造分类器;(3)分
4、类:从分类器中选出最好的分类规则,对未知类标号文本进行分类。传统的关联分类算法大多关注于通过频繁项集选取规则文字属性。规则属性的选取依赖于用户指定频繁项集的最小支持度,忽略了构成规则的属性的分类有效性。容易造成阈值指定依赖经验,不能突出文字的分类有用性等问题。尽管一些文献后来提出的FoilGain[10]对文字选取做了很大的改进,但效果还是不够理想。本文采用基于信息增益的关联分类算法ACIG(AssociativeClassificationBaseclonInformationGain)对中文文本进行分类。提
5、取分类规则时,结合信息增益的特点选取分类效果更好的文字作为规则的文字属性,而不仅仅是选择满足最小支持度的频繁项,从而避免了上述问题。2问题陈述与基本定义2.1文本特征表示绝大多数现有的文本分类器都采用向量空间模型[11]来表示文本。设D是一个包含m篇文档的文档集合,即D=(dl,d2,…,dm),i-=1,2,…,m。丼中对于任意的一个di£D,文构d,可以表示为特征向量空问中的一个n维向量。艮Pd=(dildi2,…,din),i=l,2,…,m;j=l,2,…,n,力特征向量di的弟j个特征词。其中特征词通
6、过计算词条的信息增益,设定一个阈值,移除低于特定阈值的词条,保留高于某个阈值的词条,作为文档的特征词。2.2基本定义A=f{Al,A2,…,Ak}是数据属性的集合,V[A]=f{ul,u2,…,u1}是所有属性的值域(其中每一个连续属性和文字属性都己经离散化为分类属性),让C二fUl,c2…,cm}是所有可能的类别标号集合。设T是一组记录,T中的每一条记录£表示为(Al,A2,…,Ak),其中Al,A2,…,Ak是记录f的属性。定义1文字1(Literal)。一个文字声是一个属性一值对,记为(Ai,u)其中A是
7、一个属性,u是一个值。当且仅当ti=u时,一条记录t满足一个文字p(Ai,u),其中ti是记录t的第i条属性的值。这里,我们使用向量空间模型表示文本特征,特征词不带权值。因此,在本文中,文字(literal)与特征词(词条)不作区分。定义2规则r(Rule)。一条规则r有形式“plAp2八…八pi—c”。由文字pl,p2,…,1,与类标号c连接组成。当且仅当一条记录t满足规则r的所有文字吋,称记录t满足规则r。假如记录t满足规则r的所有文字,则可以预测记录£的类标号为f。关联分类的任务就是从训练集中发现这样的关
8、联规则,它的前提plAp2八…八pl,而它的结论是类别标号c,并用这样的规则集构造分类器,对新数据对象进行分类。2.3存在问题传统的关联分类算法有以下缺点:(1)规则的文字选取依赖于满足用户指定的最小支持度,这种文字选取方法忽略Y文字的分类有用性,不能产生更好的分类规则;(2)规则裁剪通过用户指定的最小置信度,容易造成规则对语料不够适应或过度适应,同时耗费大量的系统资源,在规则集很大的
此文档下载收益归作者所有