文本分类的特征提取方法比较与改进_申红.pdf

文本分类的特征提取方法比较与改进_申红.pdf

ID:52768242

大小:128.66 KB

页数:3页

时间:2020-03-30

文本分类的特征提取方法比较与改进_申红.pdf_第1页
文本分类的特征提取方法比较与改进_申红.pdf_第2页
文本分类的特征提取方法比较与改进_申红.pdf_第3页
资源描述:

《文本分类的特征提取方法比较与改进_申红.pdf》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库

1、第23卷第3期计算机仿真2006年3月文章编号:1006-9348(2006)03-0222-03文本分类的特征提取方法比较与改进1122申红,吕宝粮,内山将夫,井佐原均(1.上海交通大学计算机科学与工程系,上海200030;2.国立信息与通讯技术研究所计算语言实验室,日本京都府619-0289)摘要:文本的特征提取是文本分类过程中的一个重要环节,它的好坏将直接影响文本分类的准确率。该文介绍了词条的V2统计方法(CHI)、词条与类别的互信息(MI)、信息增益(IG)、词条的期望交叉熵(CE)等文本特征提取方法,并对其取词策略进行了改进。为了对这些特征提取方法进行系统地比较,

2、选择了三种代表性的分类器对《读卖新闻》文本数据库进行了分类实验。实验结果表明V2统计方法具有最好的准确率,各种改进的特征提取方法都能提高文本分类的准确率。关键词:特征提取;文本分类;互信息;支持向量机中图分类号:TP391文献标识码:AComparisonandImprovmentsofFeatureExtractionMethodsforTextCategorization1122SHENHong,LUBao-liang,UtiyamaMasao,IsaharaHitoshi(1.DepartmentofComputerScienceandEngineering,Shan

3、ghaiJiaotongUniversity,Shanghai200030,China;2.ComputationalLinguisticsGroup,NationalInstituteofInformationandCommunicationsTechnology,Kyoto610-0289,Japan)ABSTRACT:Featureextractiontechnologyisanessentialpartoftextcategorization,whichaffectsdirectlytheprec-isionofcategorization.Thispaperint

4、roducesfourpopularfeatureextractionmethods,.ie.aV2-test(CHI),mutualinformation(MI),informationgain(IG),andcrossentropy(CE),andproposescorrespondingimprovementsonex-tractingcharacter.Inordertocomparethesemethodscomprehensively,weperformsimulationsonYomiuriNewsCor-pususingthreetypicalclassif

5、icationalgorithms.Theexperimentalresultsshowthatthemodifiedfeatureextractionmethodscanimprovetheprecisionofcategorization.Inaddition,aV2-testmethodobtainsthebestclassificationprecision.KEYWORDS:Featureselection;Textcategorization;Mutualinformation;Supportvectormachine1引言序词条的集合。在该模型中,文本空间被视

6、为一组正交词条[1]随着计算机技术和通讯技术的飞速发展,人们可以获得向量所张成的向量空间。向量的维数往往是惊人的,包含的文本信息越来越多,同时需要投入更多的时间对信息进行噪声,且特征不明显。特征提取可以看作是从测量空间到特组织和整理。文本分类能够改善文本信息杂乱的状况,可以征空间的一种映射或变换。特征提取可以降低特征空间的降低查询时间,提高搜索质量,方便用户,从而使快速有效地维数,从而达到降低计算复杂度和提高分类准确率的目[2]获取文本信息成为可能。在研究文本分类的过程中,特征提的。取是最关键的环节之一,具有降低向量空间维数、简化计算、防止过分拟合以及去除噪声等作用,特征提

7、取的好坏将直接2特征提取方法影响着文本分类的准确率。对VSM型的文本样本一般是构造一个特征评估函数,将最常用的文本特征表示模型是向量空间模型(Vector测量空间的数据映射到特征空间,对特征空间中的特征值进SpaceMode,lVSM)。向量空间模型基于这样一个关键假设,行评估,然后选择合适的词作为样本的特征。特征评估函数即文章中词条出现的顺序是无关紧要的,它们对于文本的类通常有下列几种形式:信息增益(IG)、词条与类别的互信息2别所起的作用是相互独立的,因此可以把文本看作一系列无(MI)、词条的V统计(CHI)、

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。