中文文本分类特征选择方法的研究与实现

中文文本分类特征选择方法的研究与实现

ID:36479504

大小:1.00 MB

页数:81页

时间:2019-05-11

中文文本分类特征选择方法的研究与实现_第1页
中文文本分类特征选择方法的研究与实现_第2页
中文文本分类特征选择方法的研究与实现_第3页
中文文本分类特征选择方法的研究与实现_第4页
中文文本分类特征选择方法的研究与实现_第5页
资源描述:

《中文文本分类特征选择方法的研究与实现》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、中文文本分类特征选择方法的研究与实现作者姓名林艳峰导师姓名、职称郑有才副教授领域计算机技术企业导师姓名、职称解岩高级工程师申请学位类别工程硕士提交学位论文日期2014年12月学校代码10701学号1203121815分类TN82号TP39密级公开西安电子科技大学硕士学位论文中文文本分类特征选择方法的研究与实现作者姓名:林艳峰领域:计算机技术学位类别:工程硕士指导教师姓名、职称:郑有才副教授企业导师姓名、职称:解岩高级工程师提交日期:2014年12月ResearchandImplementationofFeatureSelectioninChineseTe

2、xtClassificationAthesissubmittedtoXIDIANUNIVERSITYinpartialfulfillmentoftherequirementsforthedegreeofMasterinComputerTechnologyByLinYanfengSupervisor:ZhengYoucaiDecember2014西安电子科技大学学位论文独创性(或创新性)声明秉承学校严谨的学风和优良的科学道德,本人声明所呈交的论文是我个人在导师指导下进行的研究工作及取得的研究成果。尽我所知,除了文中特别加以标注和致谢中所罗列的内容以外,论文

3、中不包含其他人已经发表或撰写过的研究成果;也不包含为获得西安电子科技大学或其它教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中做了明确的说明并表示了谢意。学位论文若有不实之处,本人承担一切法律责任。本人签名:日期:西安电子科技大学关于论文使用授权的说明本人完全了解西安电子科技大学有关保留和使用学位论文的规定,即:研究生在校攻读学位期间论文工作的知识产权单位属于西安电子科技大学。学校有权保留送交论文的复印件,允许查阅、借阅论文;学校可以公布论文的全部或部分内容,允许采用影印、缩印或其它复制手段保存论文。同时本人保证,

4、获得学位后结合学位论文研究成果撰写的文章,署名单位为西安电子科技大学。保密的学位论文在年解密后适用本授权书。本人签名:导师签名:日期:日期:摘要摘要信息技术的迅猛发展与互联网的快速普及引发了信息的爆炸性增长。文本作为计算机存储信息的重要载体,其增长的速度同样迅速。庞大的文本库中往往存在着许多对人们重要的信息,为了从文本库中快速、有效的获取到这些信息,需要有科学、高效的方法。基于机器学习的文本自动分类技术可以为人们解决庞大的文本库信息混乱的现象,帮助人们将众多的文本进行自动归类提高工作效率。因此,对文本自动分类技术的研究有着重大的实用意义。在文本自动分类过

5、程中,特征选择是其核心环节。高效的文本分类分类器要求组成其向量空间的特征应该带有较强的分类信息,同时向量空间能很好的兼顾各个类别里的文本的信息。本文详细分析了传统特征选择方法包括文档频率(DF)、信息增益(IG)、互信息(MI)、卡方统计(CHI)、期望交叉熵(CE)的优点和不足,并通过比较发现它们都是基于特征词某个方面的重要度进行衡量来决定是否选择特征词,缺乏对特征词重要性的综合衡量。鉴于上述缺陷,本文提出一种基于对特征词重要性进行综合衡量的特征选择方法,新的特征选择方法从特征词的词频、文档频、类内均匀度、特征词全局类别区分度方面对特征词进行综合考虑,

6、其中特征词全局类别区分度是基于互信息的二类信息差值提出的,并引入特征词样本均方差因子来改进其互信息倾向于低频词问题。本文同时还设计并实现了中文文本分类系统,来验证新特征选择方法的有效性,分类系统采用模块化的设计,并实现了KNN分类算法和贝叶斯分类算法,在此系统上进行验证实验。通过对传统的特征选择方法MI、DF、CHI和本文提出的新特征选择方法进行对比实验,利用多项常用的分类效果评价指标对实验结果进行综合性评价分析。实验结果标明新的特征选择方法能够有效的降低特征空间维度,在分类中表现出良好的特征提取效果,反映了类别间的差异度。关键词:文本分类,特征降维,特

7、征选择论文类型:应用基础技术I西安电子科技大学硕士学位论文IIABSTRACTABSTRACTAlongwiththeswiftdevelopmentofinformationtechnologyandrapidpopularizationoftheInternettechnology,theinformationstoredincomputersystemsincreaseswithamazingspeed.Electronictextisoneofthemostimportantformofdataincomputersystems,thegrowt

8、hofwhichisasastonishing,asthegrowthofthe

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。