文本分类特征选择卡方统计k-近邻支持向量机论文

文本分类特征选择卡方统计k-近邻支持向量机论文

ID:16370342

大小:41.00 KB

页数:5页

时间:2018-08-09

文本分类特征选择卡方统计k-近邻支持向量机论文_第1页
文本分类特征选择卡方统计k-近邻支持向量机论文_第2页
文本分类特征选择卡方统计k-近邻支持向量机论文_第3页
文本分类特征选择卡方统计k-近邻支持向量机论文_第4页
文本分类特征选择卡方统计k-近邻支持向量机论文_第5页
资源描述:

《文本分类特征选择卡方统计k-近邻支持向量机论文》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、中文文本分类中特征选择方法的应用与研究【摘要】文本分类技术可以用来帮助人们从海量的信息中获取有用信息,它已经得到了广泛地研究和应用。文本分类就是将一些未知的文本与预先定义好的文本类别相互比较,如果这个未知的文本与已知文本类别中的一些类别互相对应时,那么这个未知文本就属于所对应类别的文本。在文本分类中,影响分类效果的一个比较重要的因素是特征选择。特征选择就是在原始特征集中选出最有代表性的一些特征,它可以降低特征维数。在文本领域中,特征选择的必要性在于它可以使分类任务更加有效与准确。本文通过分析与比较,指出了传统的卡方统计法的缺点。一方面它仅仅只关心特征词在全部文本而不

2、是一篇文本中所出现的次数,这就降低了最终分类的准确率;另一方面它只关心出现次数特别多的特征词,如果在研究的类别中,特征词出现比较少时,还选用这些特征词的话,分类的效果就会不准确。为了解决卡方统计法本身的缺点,本文通过频度思想对其进行了改进,并通过K-近邻算法与支持向量机算法,对改进的方法进行了验证。另外,本文还提出了一种比较新的特征选择方法,此方法在中文分类系统中还没有得到广泛地应用,可以作为今后研究的一个方向。最后本文构造了一个中文文本分类系统,它的各个模块之间是互不... 更多还原【Abstract】Textcategorizationtechnologycan

3、beusedtohelpusobtainsomeusefulinformationfromnumerousinformation,ithasalreadybeenwidelystudiedandbeenused.Textcategorizationistocomparesomeunknowntextwithsomepre-definedclasses.Iftheunknowntextmatchestheoneormoreknownclasses,thenwesaytheunknowntextbelongstothecorrespondingclasses.Intex

4、tcategorization,featureselectionisoneimportantfactorwhichaffectstheeffectoftextcategorization.Featureselecti... 更多还原【关键词】文本分类;特征选择;卡方统计;K-近邻;支持向量机;【Keywords】textcategorization;featureselection;CHIstatistic;KNN;SVM;【索购全文】Q联系Q:138113721Q联系Q:139938848付费即发 目录摘要3-5ABSTRACT5-6第一章绪论10-141.1论文

5、研究背景及意义10-111.2文本分类的研究现状11-121.3论文的主要工作121.4论文组织结构12-14第二章文本分类技术及应用14-282.1文本分类问题的概述14-152.2文本分类的特性152.3文本分类的文本集152.4文本分类的方法15-162.5文本分类的过程16-252.5.1文本表示17-182.5.2文本预处理18-192.5.3特征提取19-222.5.4训练或构造分类器222.5.5测评22-252.6文本分类的应用252.7本章小结25-28第三章文本分类算法28-363.1K-近邻算法28-303.2支持向量机算法30-343.2.1

6、线性可分的支持向量机30-313.2.2线性不可分的支持向量机31-323.2.3非线性支持向量机32-333.2.4多类支持向量机33-343.3本章小结34-36第四章特征选择及特征选择方法的研究36-444.1特征选择与特征抽取区别36-384.1.1特征选择36-374.1.2特征抽取37-384.2研究特征选择的作用384.3特征选择方法的定义384.4常用的特征选择方法38-424.4.1文档频率394.4.2信息增益39-404.4.3互信息404.4.4卡方统计法40-424.4.5特征强度424.4.6优势率424.4.7文本证据权重424.5特征

7、选择方法的比较42-434.6本章小结43-44第五章CHI统计法的改进及一种新的特征选择方法44-485.1CHI特征选择方法的缺点及改进44-455.1.1CHI统计法的缺点445.1.2CHI统计法的改进44-455.2二元正态分离的特征选择方法455.3文本分类系统设计45-475.3.1文本分类系统流程图45-465.3.2文本分类系统的模块46-475.4本章小结47-48第六章实验及结果分析48-626.1文本分类实验48-516.1.1文本集选择486.1.2实验过程48-516.2分类性能评估516.3实验结果分析51-606.3.1KNN实验

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。