资源描述:
《05 基于类别概念的特征选择方法 王琳》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、基金资助:国家自然科学基金资助项目(项目编号:60472082)作者简介:王琳(1981-),女,山东,硕士研究生.email:linerhy@163.com基于类别概念的特征选择方法王琳1,陈伟萍2,封化民3,方勇1,3,杨鼎才2(1.北京邮电大学电信工程学院,北京100876;2.燕山大学,秦皇岛066004;3.北京电子科技学院信息安全与保密重点实验室,北京100070)摘要:本文基于中文文本分类的定义及其向量空间模型,分析了向量空间模型正确分类的关键所在。通过对传统的特征选择方法及其存在的问题的分析
2、,提出了基于类别概念的特征选择方法。通过支撑向量机对中等规模语料库的实验,验证了此方法的有效性。关键词:文本分类;向量空间模型;知网;类别概念。FeatureSelectionMethodBasedonCategoryConceptLinWang1,WeipingChen2,HuaminFeng3,YongFang1,3,DingcaiYang(1.SchoolofTelecommunicationEngineering,BeijingUniversityofPostandTelecommunication
3、s,Beijing100876China;2.SchoolofInformationEngineering,YanShanUniversity,Qinhuangdao066004China;3.KeyLaboratoryforSecurityandSecrecyofInformation,BeijingElectronicScienceandTechnologyInstitute,Beijing100070China)Abstract:Basedonthedefinitionoftextcategoriza
4、tionandVSM(VectorSpaceModel),thispaperanalyzesthekeypointsofcorrectlycategorizingtexts.Afteranalyzingtheconventionalfeatureselectionmethods,anewfeatureselectionmethodwasproposed.ByusingSupportVectorMachine,experimentresultonamid-sizecorpusshowedtheeffectiv
5、enessofthemethod.keywords:TextCategorization;VSMmodel;HowNet;CategoryConcept.9引言网络技术的发展和Internet的开放性使它逐步成为一个全方位的资源宝库,但其复杂的结构使人们很难从中准确找到需要的信息。文本分类是信息检索中的重要课题。传统的文本分类是基于人工方式的,如过去Yahoo的做法就是将网页放在一个巨大的层次分类结构中,通过人工组装维护这些类别,达到帮助人们方便快速查找信息的目的。这种方式缺点很多,如周期长、费用高、效率低
6、、需要大量专业人员以及分类结果的一致性低等。20世纪90年代以后,基于机器学习的文本自动分类方法越来越成为主流。通过学习的方式使分类器获得分类知识,直至具备判别新文本所属类别的能力。相比于人工方式,它具有周期短,效率高,节省人力资源,分类结果一致性高等优点。但作为自然语言处理、人工智能、模式识别等多领域的交叉学科,它受到多方面的限制,分类准确率一直不能达到令人满意的效果。在Internet信息急剧膨胀的今天,为文本分类提供了广阔的发展空间,文本自动分类面临前所未有的机遇和挑战,如何提高分类准确率成为研究热点
7、。本文从文本分类的基本问题出发,分析了文本分类的基本模型、特征选择等内容。全文结构安排如下:第一节介绍文本分类定义及向量空间模型;第二节简要介绍了典型的传统特征选择方法;第三节是本文重点,提出了基于类别概念的特征选择方法;第四节描述了实验设计的系统框架结构;第五节给出了实验结果及其分析;最后第六节得出结论并对未来研究予以展望。1文本分类及向量空间模型1.1文本分类定义文本分类(TextCategorization)是指依据文本的内容,由计算机根据某种自动分类算法,把文本判分为预先定义好的类别。1.2向量空间
8、模型向量空间模型(VSM,VectorSpaceModel)是最常用的文本分类模型之一。它以特征项作为向量空间的坐标,将文本看作向量空间中的点。特征项可以是字、词、短语、句子等意义单位。一般取词作为特征项。即是说,集合所有的特征项确定一个特征空间,假定为维空间,每一篇文本就可以用的一个向量表示,其中表示在中的权重。其中,为词或短语,对应每个,通常用权重来表示在文本中的出现情况,以区别其文本。VSM解决文本分类问题