资源描述:
《基于粗糙集理论文本分类规则的优化方法_王海涌.pdf》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库。
1、第20卷第2期甘肃科学学报Vol.20No.22008年6月JournalofGansuSciencesJun.2008基于粗糙集理论文本分类规则的优化方法1,21,2王海涌,郑丽英(1.兰州交通大学电子与信息工程学院,甘肃兰州730070;2.兰州交通大学光电技术与智能控制教育部重点实验室,甘肃兰州730070)摘要:文本分类规则的提取和优化是衡量文本分类系统适应性能和分类能力的主要指标.在基于粗糙集和模糊聚类理论的文本分类系统中,结合粗集理论及不完备信息系统理论,提出了分类规则的提取和优化方法,通过实验和分析,产生用户满意的约简规则,从而能够快捷迅速地指导新文本的分类,提高系
2、统的适应性能和分类能力.关键词:粗糙集;不完备信息系统;文本分类;规则约简中图分类号:TP391.41文献标识码:A文章编号:1004-0366(2008)01-0099-04AnApproachtoExtractingTextClassificationDecisionRulesBasedonRoughSet1,21,2WANGHa-iyong,ZHENGL-iying(1SchoolofElectronicandInformationEngineering,LanzhouJiaotongUniversity,Lanzhou730070,China;2.KeyLaborator
3、yofOpto-ElectronicTechnologyandIntelligentControl,MinistryofEducationLanzhouJiaotongUniversity,Lanzhou730070,China)Abstract:TheextractionandoptimizationofTextclassificationrulesarethemainindicatorstoevaluatetheabilitytoadapttoandclassifyaTextclassificationsystem.Basedonroughsetsandfuzzycluste
4、ringtheoryoftextclassificationsystem,withthehelpofthetheoryofincompleteinformationsystem,thepa-perpresentsthemethodtoextractandoptimizeaclassificationrule.Afterexperimentingandanalysis,satisfyingreductionrulesareobtainedtohelpusersquicklyclassifythenewtext,thusenhancingtheabil-itytoadapttoand
5、classifythesystem.Keywords:roughset;incompleteinformationsystem;textclassification;rulereduction随着互联网和多媒体技术的进一步发展,文本用户可以根据实际决策需要和领域知识,既可以在分类技术将与图像识别、语音识别融合,这就进一步文本直接聚类时更改阀值K,得到不同的文本类别要求文本分类技术在文本的处理方法、克服噪音干体系,也可以在提取主属性时,更改阀值K,产生用[1]扰、分类精度方面有进一步的提高.我们在基于粗户满意的属性约简结果,更新和增加分类规则,从而[2]糙集和模糊聚类理论的文本分类
6、系统中,结合不完指导新文本的分类.其主要过程如图1所示.备信息系统理论,提出了文本分类规则的优化方法,2不完备信息系统详细讨论和分析了实现技术和有关的算法.一个信息系统可以定义为一个二元组S=1文本分类模型(U,AT),其中:基于粗糙集和模糊聚类理论的文本分类系统中(1)U是对象的非空有限集合;收稿日期:2007-08-07基金项目:甘肃省自然科学基金项目(3ZS042-B25-038);光电技术与智能控制教育部重点实验室(兰州交通大学)开放基金项目(K040103)100甘肃科学学报2008年第2期图1基于粗糙集和模糊聚类理论的文本分类过程(2)AT是属性的非空有限集合;(SI
7、M(A)=SIM(AT)C(PBIA,SIM(B)X(3)对于任意的aIAT,都有a:UvVa存在,其SIM(AT))).中Va称为a的值域.定义2近似集每个属性子集AIAT决定了一个不可区分的令xIU和AIAT.则定义:关系ind(A):AX是X的下近似当且仅当ind(A)={(x,y)IU@U
8、VaIA,a(x)=AX={xIU
9、SA(x)AX}=a(y)},{xIX
10、SA(x)AX},关系ind(A)(AIAT)构成了U的划分,用AX是X的上近似当且仅当U/ind(A)来表