资源描述:
《基于云模型的文本特征自动提取算法_代劲》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、第42卷第3期中南大学学报(自然科学版)Vol.42No.32011年3月JournalofCentralSouthUniversity(ScienceandTechnology)Mar.2011基于云模型的文本特征自动提取算法1,212,3代劲,何中市,胡峰(1.重庆大学计算机科学与技术学院,重庆,400030;2.重庆邮电大学计算机科学与技术研究所,重庆,400065;3.西南交通大学信息科学与技术学院,四川成都,610031)摘要:在综合考虑特征整体与局部分布基础上,提出一种高性能的文本特征自动提取算法。算法引入云隶属度概念对特征分
2、布进行修正,不需任何先验知识,能根据特征分布特点自动获取云隶属度高的特征集。实验结果表明:该特征集具有特征个数少、分类精度高的特点,性能明显比当前主要的特征选择方法的性能优。关键词:文本分类;特征提取;云模型;隶属度;动态聚类中图分类号:TP18文献标志码:A文章编号:1672−7207(2011)03−0714−07Textfeatureautomaticselectionalgorithmbasedoncloudmodel1,212,3DAIJin,HEZhong-shi,HUFeng(1.CollegeofComputerScien
3、ce,ChongqingUniversity,Chongqing400030,China;2.InstituteofComputerScienceandTechnology,ChongqingUniversityofPostsandTelecommunications,Chongqing400065,China;3.SchoolofInformationScienceandTechnology,SouthwestJiaotongUniversity,Chengdu610031,China)Abstract:Combiningtheover
4、allwiththelocaldistributionoffeaturesincategories,ahighperformancealgorithmforfeatureautomationselection(NamedFAS)wasproposed.ByusingFAS,thefeaturesetwasobtainedautomaticallyandthedistributionoffeatureswasamendedbyusingcloudmodeltheory.Theresultsshowtheselectedfeatureseth
5、asfewerfeaturesandbetterclassificationperformancethantheexistingmethods.Keywords:textclassification;featureselection;cloudmodel;membershipdegree;dynamicclustering2[7][8][9]文本自动分类是信息检索与数据挖掘领域的研究χ统计量CHI、互信息MI和多种方法组合等。热点与核心技术,近年来得到了广泛关注和快速发展,这些方法按其特征选择函数计算函数值,然后以降序[1][2][3]在
6、信息检索、新闻推荐、词义消歧、文本主题识选择靠前的特征集。在选择过程中,选择尺度是一个[4][5]别、网页分类等领域有着广泛应用。文本自动分类重要指标,直接影响着文本分类的性能。实验证明:[6]的主要难题之一是特征空间维数过高,如何降低特多数分类器呈现出随特征数量增加,效果快速提高并征空间维数成为文本自动分类中需要首先解决的问能迅速接近平稳的特点;但若特征数过大,性能反而[6][10−13]题。特征选择是文本特征降维的一种有效方法,很可能降低。这表明合理的特征选择尺度不仅能大多学者对此进行了深入的研究,并提出了很多有效的量降低处理开销,而
7、且在很多情况下可以改善分类器[7][7]方法,比较经典的有文档频率DF、信息增益IG、的效果。在确定特征选择尺度时,现有特征选择方法收稿日期:2010−06−07;修回日期:2010−09−28基金项目:国家重大科技专项子课题(2008ZX07315-001);重庆市重大科技专项(2008AB5038);中央高校基本科研业务资助项目(CDJXS11181160)通信作者:代劲(1978−),男,贵州遵义人,博士研究生,从事自然语言处理、智能信息处理研究;电话:13062352289;E-mail:daijin@cqupt.edu.cn第3
8、期代劲,等:基于云模型的文本特征自动提取算法715通常采用经验估算方法:如给定特征数的经验值(PFC)和ECE的效果次之,WET和DF的效果再次之,MI[7,22]或比例(THR)、考虑统计量