基于Rough集约简算法的中文文本自动分类系统

基于Rough集约简算法的中文文本自动分类系统

ID:37563715

大小:495.46 KB

页数:7页

时间:2019-05-25

基于Rough集约简算法的中文文本自动分类系统_第1页
基于Rough集约简算法的中文文本自动分类系统_第2页
基于Rough集约简算法的中文文本自动分类系统_第3页
基于Rough集约简算法的中文文本自动分类系统_第4页
基于Rough集约简算法的中文文本自动分类系统_第5页
资源描述:

《基于Rough集约简算法的中文文本自动分类系统》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、万方数据第27卷第7期2005年7月电子与信息学报Jo啪alofElec抒0nics&Inf-o咖ationTechnolo影、,01.27No.7Jul.2005基于I沁u曲集约简算法的中文文本自动分类系统盛晓炜江铭虎(清华大学中文系计算语言学实验室北京100084)(中国科学院自动化研究所模式识别国家重点实验室北京100080)摘要:现有的文本自动分类离不开文档向量的构造,向量的分量与文档中的特征项相对应。这种向量通常高达几千维甚至数万维,计算量相当大,因此需要对向量进行约简。而传统的基于频率的阈值过滤法往往会导致有效信息的丢失,影响分类

2、的准确度。该文将Rougll集理论引入自动分类,并提出了一种新的文档向量约简算法。实验证明该算法不仅能有效缩减文档向量的规模,而且相比传统的阂值法信息损失小、准确率更高。关键词:自动分类,RDu曲集,决策表,约简算法中图分类号:TP391文献标识码:A文章编号:l009-5896(2005)07—1047-06AutomaticClassincationofChineseDocumentsBasedOnRoughSetandImproVedQuick—ReduceAlgorithmShengXi∞-weiJiaIlgMin哥hu乜口6矿cD叩

3、甜招踟煳比fw‘括比F,D印r矿@加邸P£口删,乃f哪“口洳fvP船坝&驴馏100084,鳓拥力(鼢据硒,加6D厂忍ff绷RP凸唧肋行,胁“m胞叽4“fD肌口ffon,国伽黜e彳c础删矿&砌鲫,Be扩垤l00080,国f嘲Abst礴ctMuchofmepreviousautomaticTextCl鹊sification(TC)metllodsarecloselyco衄emedwimtheco璐tructionofdoc啪emvectors.Witheachtenllcorrespondingtoaunitintllevector,mismem

4、odm印stlledoc啪emVect0格imoave搿highdimensionaIspace,possibIyoftensofttlous柚dsofdimension,whichresuItsinamassiVeaIIlountofcaIculation.Sincethe打aditionalalgoritlllTlsbaSedonfbquencyafldtllresholdfilteringmayoftenleadtothelossofeff-ectiVeinfomation,tllispaperpresentsanewsyStemfor

5、TC,whichintmducesroughsett11eoqt11atcangreatlyreducethedoc啪entvectordimensionsbyreductionaIgorithm.TheempiricalresultsproVetobeVe9success向l,foritcannotonlyeffbctivelyreducethedimensionalspace,but.alsoreachhigheraccuracywhilelosinglessinfomationcomparedwi也usualreductionmetho

6、ds.KeywordsAutomaticclassification,Roughset,Decisiontable,Reductionalgorithrn1引言随着网络的迅猛发展,电子文本的信息量也急剧膨胀,为了能更好地管理和检索这些信息,对文本预先进行分类成为必不可少的一环。目前的文本分类系统都依赖于各种向量模型【1,21,在训练阶段要为每篇文档构造一个文档向量,然后通过向量聚类得到分类向量。在对新文档进行分类时,将其文档向量和各分类向量进行余弦夹角等计算,最终确定该文档所属类别。文档向量通常的构造方法为:计算文档中的特征项的权值(通常由特

7、征项频率TF,反文档频率IDF等频率信息得到)【21,然后将这些权值填入一个由全部特征项构成的向量中,未出现的特征项对应的分量为O。由于文档中可能出现2004.02.19收到,2004.08.05改回教育部优秀青年教师资助计划,教育部归国人员启动基金,模式识别国家重点实验室开放基金和清华大学基础研究基金资助课题的特征项数量很多,因此这种文档向量通常高达几千甚至数万维,带来了很大的运算量。导致了现有的分类系统在效率上难以适应Intemet上信息量迅猛膨胀的要求。为了降低文档向量的维数,很多系统在频率统计的基础上使用了阈值过滤的方法【31,即将文

8、档向量中低于阈值的分量全部去除。这样做虽然能降低向量的维数,却不可避免地丢失了一些有用的信息,特别是对于分类很重要的低频词f比如某些类别中的专有名词,虽然出现频率很

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。