数据挖掘-文本分类实验报告.doc

数据挖掘-文本分类实验报告.doc

ID:50396374

大小:246.50 KB

页数:11页

时间:2020-03-05

数据挖掘-文本分类实验报告.doc_第1页
数据挖掘-文本分类实验报告.doc_第2页
数据挖掘-文本分类实验报告.doc_第3页
数据挖掘-文本分类实验报告.doc_第4页
数据挖掘-文本分类实验报告.doc_第5页
资源描述:

《数据挖掘-文本分类实验报告.doc》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库

1、北京邮电大学2015-2016学年第1学期实验报告课程名称:数据仓库与数据挖掘实验名称:文本的分类实验完成人:姓名:学号:日期:2015年12月实验一:文本的分类1.实验目的1)掌握数据预处理的方法,对训练集数据进行预处理;2)掌握文本建模的方法,对语料库的文档进行建模;3)掌握分类算法的原理,基于有监督的机器学习方法,训练文本分类器;4)利用学习的文本分类器,对未知文本进行分类判别;5)掌握评价分类器性能的评估方法2.实验分工独立完成3.实验环境基于Windows平台,使用eclipse开发。4.主要设计思想4.1实验工具介绍Eclipse:一个开放源代码的/基于Java的

2、可扩展开发平台。就其本身而言,它只是一个框架和一组服务,用于通过插件组件构建开发环境。Eclipse最早是由IBM开发的,后来IBM将Eclipse作为一个开放源代码的项目发布。现在Eclipse在eclipse.org协会的管理与指导下开发。4.2特征提取与表达方法的设计在此次实验中,我考虑了CHI特征提取的方法来建立数据字典。详细步骤见5.3描述。根据CHI特征提取,最终建立成数据字典,数据字典记录在目录E:DataMiningSampledocVector下的allDicWordCountMap.txt文档中。最终的特征向量表达方式为:文档类别标识_单词词频。如:a

3、lt.atheism_abstact1.0。其中alt.atheism为此文本所属的类别,abstact为对应的单词,1.0为该单词的词频数。1.1分类算法的选择本次实验使用的是朴素贝叶斯分类算法,朴素贝叶斯法是基于贝叶斯定理与特征条件独立假设的分类方法。朴素贝叶斯分类器基于一个简单的假定:给定目标值时属性之间相互条件独立。即:朴素贝叶斯模型:属于V集合,其中Vmap是给定一个example得到的最可能的目标值,a1…an是这个example里面的属性。这里面,Vmap目标值就是后面计算得出的概率最大的一个,所以用max来表示。贝叶斯公式应用到中可得到,又因为朴素贝叶斯分类器

4、默认a1…an他们互相独立,所以对于结果没有用处。因为所有的概率都要出同一个东西之后再比较大小,对最后结果没有影响。可得到。尽管是带着这些朴素思想和过于简单化的假设,但朴素贝叶斯分类器在很多复杂的现实情形中仍能够取得相当好的效果。2004年,一篇分析贝叶斯分类器问题的文章揭示了朴素贝叶斯分类器取得看上去不可思议的分类效果的若干理论上的原因。尽管如此,2006年有一篇文章详细比较了各种分类方法,发现更新的方法(如boostedtrees和随机森林)的性能超过了贝叶斯分类器。朴素贝叶斯分类器的一个优势在于只需要根据少量的训练数据估计出必要的参数(变量的均值和方差)。由于变量独立假

5、设,只需要估计各个变量的方法,而不需要确定整个协方差矩阵。1.2性能评估方法本次实验我使用了准确率(P),召回率(R)和F1-Score来评价分类结果。下面通过表4.1具体解释一下这三种性能评估方法的计算公式。表4.1预测结果和实际情况0-1状态图实际情况1代表真实情况此类,0表示不属于预测结果1代表预测属于此类0代表预测不属于此类101TruepositiveFalsepositive0FalsenegativeTruenegativeP=Truepositive/(Truepositive+Falsepositive)R=Truepositive/(Truepositiv

6、e+Falsenegative)F1-Score=(2*P*R)/(P+R)在此实验中,我通过准确率、召回率和F1-Score这三个性能评估方法对最后的结果进行了详细的分析。关于结果分析的详细描述见5.6。1.实验过程1.1文本分类语料库的采集本实验的语料库是下载网上现成的英文文本语料库的,该语料库的类别有20类,分别为:alt.atheism,comp.graphics,comp.os.ms-windows.misc,comp.sys.ibm.pc.hardware,comp.sys.mac.hardware,comp.windows.x,misc.forsale,rec.

7、autos,rec.motorcycles,rec.sport.baseball,rec.sport.hockey,sci.crypt,sci.electronics,sci.med,sci.space,soc.religion.christian,talk.politics.guns,talk.politics.mideast,talk.politics.misc,talk.religion.misc,其中每个分类有九千多文档,整个语料库有1万8千多文件。现在需要将这1万8千多文件分配成训练集和测试集

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。