欢迎来到天天文库
浏览记录
ID:37106434
大小:770.30 KB
页数:51页
时间:2019-05-17
《基于VSM的中文文本分类算法研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、单位代码:10293密级:硕士学位论文论文题目:基于VSM的中文文本分类算法研究学号1015010606姓名余伟中导师唐加山学科专业信号与信息处理研究方向现代通信中的智能信号处理技术申请学位类别工学硕士论文提交日期二〇一八年三月ResearchofChinesetextclassificationalgorithmsbasedonVSMThesisSubmittedtoNanjingUniversityofPostsandTelecommunicationsfortheDegreeofMasterofEngineeringByWeizhong
2、YuSupervisor:Prof.JiashanTangMarch2018南京邮电大学学位论文原创性声明本人声明所呈交的学位论文是我个人在导师指导下进行的研究工作及取得的研究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得南京邮电大学或其它教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示了谢意。本人学位论文及涉及相关资料若有不实,愿意承担一切相关的法律责任。研究生学号:___________研究生签名:________
3、____日期:____________南京邮电大学学位论文使用授权声明本人授权南京邮电大学可以保留并向国家有关部门或机构送交论文的复印件和电子文档;允许论文被查阅和借阅;可以将学位论文的全部或部分内容编入有关数据库进行检索;可以采用影印、缩印或扫描等复制手段保存、汇编本学位论文。本文电子文档的内容和纸质论文的内容相一致。论文的公布(包括刊登)授权南京邮电大学研究生院办理。涉密学位论文在解密后适用本授权书。研究生签名:____________导师签名:____________日期:_____________摘要随着网络技术的迅速发展,众多信息资
4、源以文本的形式呈现。人们期望通过对文本数据的处理,来快速准确地获得有用的信息,文本分类作为处理文档的一个重要途径,在信息处理中起到重要的作用。近年来,随着机器学习研究的逐步深入,文本分类技术得到了很好的发展。然而,在大量的文本中将文本准确地分类并不如想象中的那么简单,通常需要经过文本预处理、特征选择、特征加权、分类器的训练等步骤来实现,这些具体步骤所使用的算法,仍然有许多可以改进的地方。本文在对中文文本分类中特征选择、特征加权及分类器的具体算法进行研究的基础上提出改进算法,主要工作如下:(1)针对特征选择中信息增益算法未考虑中文特征词在类间分
5、布问题,本文提出了基于信息熵加权的信息增益改进算法。利用信息熵衡量中文特征词在类间分布情况,为不同类别的信息增益赋予相应权值,仿真实验表明改进后的算法具有良好的分类效果。(2)针对TF-IDF特征权重算法没有考虑特征在类别间分布集中程度对分类的影响这一事实,运用物理学上重力矩概念,提出了一种新的TF-IDF-ICL(termfrequency&inversedocumentfrequency&inter-classconcentrationlevel)算法,仿真实验验证了新算法能有效地提高文本分类的准确率及召回率。(3)针对朴素贝叶斯理论的属
6、性独立性不符合客观实际情况的事实,本文提出了基于互信息加权的朴素贝叶斯文本分类算法。该方法使用互信息对不同类别中的特征项进行了分别赋权,部分消除了假设对分类效果的影响,仿真实验表明改进后的算法具有良好的分类效果。关键词:文本分类,信息增益,信息熵,重力矩,TF-IDF,互信息,朴素贝叶斯分类IAbstractWiththerapiddevelopmentofnetworktechnology,manyinformationresourcesappearintheformoftext.Peopleexpecttogetusefulinforma
7、tionquicklyandaccuratelybyprocessingtextdata.Textclassification,asanimportantwaytoprocessdocuments,playsanimportantroleininformationprocessing.Inrecentyears,withthefurtherresearchofmachinelearning,thetechnologiesoftextclassificationhavebeendevelopingrapidly.However,theaccur
8、ateclassificationoftextinalargenumberoftextisnotassimpleassupposed,itgenerallyneed
此文档下载收益归作者所有