数据挖掘文本分类实验报告.doc

数据挖掘文本分类实验报告.doc

ID:48601023

大小:34.08 KB

页数:11页

时间:2020-01-29

数据挖掘文本分类实验报告.doc_第1页
数据挖掘文本分类实验报告.doc_第2页
数据挖掘文本分类实验报告.doc_第3页
数据挖掘文本分类实验报告.doc_第4页
数据挖掘文本分类实验报告.doc_第5页
资源描述:

《数据挖掘文本分类实验报告.doc》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、北京邮电大学****学年第1学期实验报告课程名称:数据仓库与数据挖掘实验名称:文本的分类实验完成人:姓名:***学号:*&***姓名:**学号:**日期:实验一:文本的分类1.实验目的u掌握数据预处理的方法,对训练集数据进行预处理;u掌握文本分类建模的方法,对语料库的文档进行建模;u掌握分类算法的原理,基于有监督的机器学习方法,训练文本分类器;u了解SVM机器学习方法,可以运用开源工具完成文本分类过程。2.实验分工***:(1)对经过分词的文本进行特征提取并用lisvm进行训练(2)用训练的模型对测试数据进行预测***:(1)数据采集和预处理(2)分词3.实验环境Ubuntu13.

2、04+jdk1.71.主要设计思想4.1实验工具介绍1.NLPIR_ICTCLAS2013NLPIR(又名ICTCLAS2013),是由中科院张华平博士倾力打造的汉语分词系统。其主要功能包括中文分词、词性标注、命名实体识别、用户词典功能、支持GBK编码、UTF8编码、BIG5编码等。从NLPIR官网可以下载其最新版的Java发布包,然后导入Eclipse,配置运行环境,实现对于语料库的分词。最新的NLPIR可以通过更改源代码实现新增新词识别、关键词提取、微博分词等功能,极大地方便了使用。2.EclipseforJavaEclipse是一个开放源代码的、基于Java的可扩展开发平台。

3、就其本身而言,它只是一个框架和一组服务,用于通过插件组件构建开发环境。幸运的是,Eclipse附带了一个标准的插件集,包括Java开发工具(JavaDevelopmentKit,JDK)。3.LibSVM本次实验中我们采用的是台湾大学林智仁博士等开发设计的LIBSVM方法。这是一个操作简单、易于使用、快速有效的通用SVM软件包,可以解决分类问题(包括C−SVC、ν−SVC),回归问题(包括ε−SVR、v−SVR)以及分布估计(one−class−SVM)等问题,提供了线性、多项式、径向基和S形函数四种常用的核函数供选择,可以有效地解决多类问题、交叉验证选择参数、对不平衡样本加权、多

4、类问题的概率估计等。4.2特征提取与表达方法的设计特征提取是在初始特征集基础上提取出一个特征子集的过程,能够起到降低向量空间维数、简化计算、防止过拟合作用。首先根据特征提取算法对特征的重要性进行评估,然后进行重要度排序,最后根据提取阈值或提取比率完成提取。提取后的特征集将用于之后的训练和分类过程。常用特征提取算法有文档频数(DocumentFrequency)、信息增益(informationGain)、期望交叉熵(expectedcrossentropy)、互信息(MutualInformation)等。本次实验采用信息增益法进行特征词提取,它是一个基于嫡的评价方法,涉及嫡理论公

5、式,定义为某特征在文档中出现前后的信息嫡之差。根据训练数据,计算出各个单词的信息增益,删除信息增益很小的词,其余的按照信息增益从大到小排序。采用TF-IDF建立文本向量,TF-IDF是由两部分组成,一部分是TF(TokenFrequency),表示一个词在文档中出现的次数,即词频。另一部分是IDF(InverseDocumentFrequency),表示某个词出现在多少个文本中(或者解释为有多少个文本包含了这个词),即逆向文档频率。4.3分类算法的选择我们选择svm的原因如下:(1)非线性映射是SVM方法的理论基础,SVM利用内积核函数代替向高维空间的非线性映射;(2)对特征空间划

6、分的最优超平面是SVM的目标,最大化分类边际的思想是SVM方法的核心;(3)支持向量是SVM的训练结果,在SVM分类决策中起决定作用的是支持向量。(4)SVM是一种有坚实理论基础的新颖的小样本学习方法。它基本上不涉及概率测度及大数定律等,因此不同于现有的统计方法。从本质上看,它避开了从归纳到演绎的传统过程,实现了高效的从训练样本到预报样本的“转导推理”,大大简化了通常的分类和回归等问题。(5)SVM的最终决策函数只由少数的支持向量所确定,计算的复杂性取决于支持向量的数目,而不是样本空间的维数,这在某种意义上避免了“维数灾难”。(6)少数支持向量决定了最终结果,这不但可以帮助我们抓住

7、关键样本、“剔除”大量冗余样本,而且注定了该方法不但算法简单,而且具有较好的“鲁棒”性。这种“鲁棒”性主要体现在:①增、删非支持向量样本对模型没有影响;②支持向量样本集具有一定的鲁棒性;③有些成功的应用中,SVM方法对核的选取不敏感4.4性能评估方法在性能评估中,我们采用的是计算分类器对于不同分类的准确率和召回率。4.4.1准确率(Precision)准确率:指的是在所有被判断为正确的文档中,有多大比例是确实正确的。例如:我们把文件分类这样四类:A:系统检测到的相关的

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。