资源描述:
《一种基于CHI值特征选取的粗糙集文本分类规则抽取方法.pdf》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库。
1、第25卷第5期计算机应用Vo.l25No.52005年5月ComputerApplicationsMay2005文章编号:1001-9081(2005)05-1026-03一种基于CHI值特征选取的粗糙集文本分类规则抽取方法1,2123王明春,王正欧,张楷,郝玺龙(1.天津大学系统工程研究所,天津300072;2.天津工程师范学院数理系,天津300222;3.天津海量软件公司,天津300384)(mchwang123@163.com)摘要:结合文本分类规则抽取的特点,给出了近似规则的定义。该方法首先利用CHI值进行特征选取并为下一步特征选取提供特征重要性信
2、息,然后使用粗糙集对离散决策表继续进行特征选取,最后用粗糙集抽取出精确规则或近似规则。该方法将CHI值特征选取和粗糙集理论充分结合,避免了用粗糙集对大规模决策表进行特征约简,同时避免了决策表的离散化。该方法提高了文本规则抽取的效率,并使其更趋实用化。实验结果表明了这种方法的有效性和实用性。关键词:CHI值;特征选取;粗糙集;文本分类规则中图分类号:TP18文献标识码:ARoughsettextclassificationruleextractionbasedonCHIvalue1,2123WANGMing-chun,WANGZheng-ou,ZHANGKa
3、i,HAOX-ilong(1.InstituteofSystemsEngineering,TianjinUniversity,Tianjin300072,China;2.DepartmentofMathematicsandPhysics,TianjinUniversityofEducationandTechnology,Tianjin300222,China;3.TianjinHylandaSoftwareCorporation,Tianjin300384,China)Abstract:Thedefinitionofproximaterulewasprop
4、osedbasedonthecharacteristicoftextclassificationruleextraction.BasedontheCHIvalues,thefeaturesoftextsetwereselectedfirstlyandfeaturesignificanceinformationwasprovidedtothefurtherfeatureselection.Thenroughsetwasusedtoselectfurthertheattributesonthediscretedecisiontable.Finallypreci
5、serulesorproximateruleswereextractedusingroughsettheory.ThemethodcombinedCHIvaluefeatureselectionandroughsettheoryfullysoastoavoidbothfeaturereductiononalargescaledecisiontableandthediscretizationofthedecisiontable.Themethodimprovedtheeffectivenessandthepracticabilityofextractingt
6、extrulegreatly.Experimentresultsdemonstratetheeffectivenessofthemethod.Keywords:CHIvalue;featureselection;roughset;textclassificationrule后得到的分类规则由于包含了特征项及其离散化权值,使得0引言规则不易理解和在分类时不能直接利用,从而使这种方法缺文本分类是指将待分类的文本自动指定至一个或几个预少实用性。[1]为了增加文本分类规则的实用性,Usenet客户软件只是定义的文本类别中,是当前文本挖掘的一个研究重点。常用的文本分
7、类方法主要有基于向量比较的文本分类技术和基简单的测定特征项是否在文本中出现来得到离散化的决策[2]于规则抽取的文本分类技术。基于向量比较的文本分类表,然后进行规则抽取。经过这样简化后可以避免对决策表技术主要包括K近邻算法、支持向量机算法等,这类方法追的离散化,也使得规则易于理解,增加了实用性,但是这种方求的是较高的文本分类正确率,但不能抽取出使人易于理解法的不足之处有:(1)由于决策表的维数没有减少,所以进行的文本分类规则。基于规则抽取的文本分类技术是一个可长属性约简的工作量没有降低;(2)算法在一开始便只通过简期得到应用的文本分类技术,如Usenet客户
8、软件所使用的文单的测定特征项是否在文本中出现来确定特征项的权值未免