欢迎来到天天文库
浏览记录
ID:36624747
大小:1.90 MB
页数:49页
时间:2019-05-13
《基于超网络的不平衡中文文本数据分类》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、分类号TP391.4密级公开重庆邮电大学硕士学位论文论文题目基于超网络的不平衡中文文本数据分类英文题目ClassincationofImbalancedChineseText指导教师王进教授学科专业计算机技术论文提交日期论文答辩日期2013.5.26论文评阅人答辩委员会主席邱玉辉2013年5月独创性声明本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的研究成果。据我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得重迭由&电太堂或其他教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论
2、文中作了明确的说明并表示谢意。学位论文作者签名:么雄签字日期:巩乙年汨L阳学位论文版权使用授权书本学位论文作者完全了解重庞蜜E电太堂有关保留、使用学位论文的规定,有权保留并向国家有关部门或机构送交论文的复印件和磁盘,允许论文被查阅和借阅。本人授权重庞鱼E电太堂可以将学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存、汇编学位论文。(保密的学位论文在解密后适用本授权书)学位论文作者签名:屋础,导师签名:五趟签字日期:2-。f3年妒喀日签字日期:≯乃年5-月2,阳重庆邮电大学硕士学位论文摘要随着Intemet应用的普及,互联网上电子文档数量正在高速增
3、长。目前Intemet已经成为全球最丰富最庞大的信息数据库,其所涉及的信息内容包括众多领域。面对如此规模庞大的信息海洋,如何有效地组织和管理这些信息已经成了社会亟待解决的问题。文本作为Intemet上信息的最主要存储形式,文本自动分类成为处理和组织大量文本数据的关键技术。文本分类属于文本挖掘的范畴。其主要任务是在预先给定的类别标记集合下,根据文本内容来判定它属于哪一类。文本分类的步骤一般包括分词、去停用词、特征选择、特征权值计算、文本分类、性能评估等。文本分类算法是文本分类的一个核心环节,直接影响到最后的分类效果。传统分类方法虽然能够进行文本分类,但在快速发展的互联网网页数据挖掘应
4、用中的分类准确率和召回率还有待进一步提高。为了提高中文文本的分类效果,本文提出了一种基于演化超网络的中文文本分类方法。采用中国科学院计算技术研究所的汉语词法分析系统对中文文本进行分词,保留文本中的名词、动词和形容词作为特征;以卡方统计方法进行特征选择;利用布尔权重计算特征权值。经处理后的特征向量作为系统的训练集和测试集数据。运用超边替代策略训练超网络分类模型,并实现对测试集特征向量的分类。对不同阶数设定下的演化超网络模型进行了性能分析,并将其与传统的KNN和SVM算法进行了比较。结果表明,本方法对复旦大学语料和搜狐语料可获得87.2%和72.5%的宏识别率、86.9%和70.5%的
5、宏召回率、87.0%和71.5%的宏Fl值,接近或优于KNN和SVM分类方法。所提出的方法是一种有效的中文文本分类手段。在实际的文本分类中,对文本数据进行处理时通常会发现,某一类或几类中的文本数量相对较少,而此类文本又相对重要,这就是所谓不平衡文本分类问题,而这样的文本数据集就被称之为不平衡文本。传统的超网络模型在处理不平衡文本分类问题时,具有很大的偏向性,大类的识别率远远高于小类。为此,提出了一种代价敏感超网络的算法。首先,将代价敏感学习算法引入超网络模型,提出了代价敏感超网络模型。为了验证此算法对不平衡中文文本分类的有效性,将代价敏感超网络模型应用于复旦大学语料和搜狐语料分类实
6、验中,并将其结果与传统超网络算法进行了比较。实验结果表明,代价敏感超网络在G.mean和R值方面,都要高于传统超网络。由于代价敏感超网络能很好地修正传统的超网络在处理不平衡数据分类问题时过分偏向大类的缺陷,提高对小类的分类准确性。因此代价敏感超网络算法重庆邮电大学硕士学位论文摘要具有处理不平衡数据分类问题的优势。关键词:文本分类,不平衡数据分类,演化超网络,代价敏感学习重庆邮电大学硕士学位论文AbstractWiththepopularizationofIntemet,thenumberofelectronicdocumentissharplyrising.Sofar,Inteme
7、thasbecomethebiggestdatabasewimabundantinformation.whichcoversmanyfields.Facingsuchamassiveinformation,howtoeffectivelyorganizeandmanagetheinformationhasbecomeaproblemurgedtobesolved.TextistheprincipalstorageformofinformationontheInteme
此文档下载收益归作者所有