基于决策树的档案文本自动分类算法研究.pdf

基于决策树的档案文本自动分类算法研究.pdf

ID:50415953

大小:9.54 MB

页数:69页

时间:2020-03-05

基于决策树的档案文本自动分类算法研究.pdf_第1页
基于决策树的档案文本自动分类算法研究.pdf_第2页
基于决策树的档案文本自动分类算法研究.pdf_第3页
基于决策树的档案文本自动分类算法研究.pdf_第4页
基于决策树的档案文本自动分类算法研究.pdf_第5页
资源描述:

《基于决策树的档案文本自动分类算法研究.pdf》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、分类号密级公开编号碛士研究被孝像讼式题目基于决策树的档案文本自动分类算法研究:学院(所、中心)软件学院专业名称系统分析与集成研究生姓名黄世反学号导师姓名沈勇职称副研究员年月扉页论文独创性声明及使用授权本论文是作者在导师指导下取得的研宄成果。除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写过的研宄成果,不存在剽窃或抄袭行为。与作者一同工作的同志对本研宄所做的任何贡献均已在论文中作了明确的说明并表示了谢意。现就论文的使用对云南大学授权如下:学校有权保留本论文(含电子版),也可以采用影印、缩印或其他复制手段保存论文;学校有权公布论文的全部或部分内容,可以将论文用于查阅或借阅

2、服务;学校有权向有关机构送交学位论文用于学术规范审查、社会监督或评奖;学校有权将学位论文的全部或部分内容录入有关数据库用于检索服务。内部或保密的论文在解密后应遵循此规定)研究生签名:导师签名:日期:;件叫云南大学硕士论文基于决策树的档案文本自动分类算法研究摘要在这个数据大爆炸的时代里,如何从海量的数据集中提取出我们需要的数据是我们面临的一大难题。数据挖掘技术正是为了解决这一问题而生,成为了当前这方面的专家、学者的一个研究热点、重点。而文本分类进一步缩小了挖掘数据的范围,成为了数据挖掘研宄领域中一个不可或缺的研宄分支。一个好的分类模型、一个优的建模方法,不仅能减少文本分类所需的时间开销,而

3、且还能提高文本分类的正确率。那么,如何快速的建立一个好的分类模型,如何才能减少文本分类所需的时间开销,如何提高文本分类的正确率是本文的研究重点。本文在算法的基础上,通过引入高等数学中等价无穷小的概念,对算法中涉及复杂对数运算的计算公式进行了改进优化。改进后用简单的四则混合运算代替了原算法中复杂的对数运算,省去了计算机对对数进行计算时要调用库函数的过程,减少了由算法生成决策树的时间开销,进而降低了整个文本分类过程的时间开销。当需求发生了变化,原先的决策树不再满足需求,决策属性不得不变。而此时,针对新的变化,我们没有现成的训练数据集。因此,本文提出了一种直接由分类规则生成决策树的方法,具体步

4、骤为:首先,根据需求和经验人为的制定分类规则;其次,通过产生式规则生成决策树;最后,釆用机器学习方法去调整决策树,使之达到当前的分类要求。总而言之,本文始终以减少生成决策树的时间开销、在没有现成训练数据集的情况下如何快速建立决策树为研宄目的。据此,通过对算法计算公式的改进优化及提出一种直接由分类规则转换为决策树的方法,达到了本文研究的初衷,并以实例分析及实验验证了本文改进方法的有效性。最后,将本文改进方法应用到云南某烟厂历史档案文本数据分类中,取得了很好的应用效果。关键词:文本分类;算法;产生式规则;分类规则;算法优化云南大学硕士论文基于决策树的档案文本自动分类算法研宄,,,,云南大学硕

5、士论文基于决策树的档案文本自动分类算法研究,云南大学硕士论文基于决策树的挡案文本自动分类算法研宄目录摘要录第章绪论研宄背景及意义国内外研究现状选题依据本文的主要工作本文的基本组织结构第章文本分类相关技术及理论介绍文本分类的定义文本分类预处理文本分词处理去除停用词文本表示常用的特征选择算法介绍文档频率(信息增益法(互信息法(义统计量法(文本分类算法贝叶斯分类算法最邻近算法神经网络算法云南大学硕士论文基于决策树的档案文本自动分类算法研究支持向量机方法决策树分类算法算法算法算法文本分类评价指标介绍查准率、查全率值宏平均和微平均本章小结第章决策树算法的改进与优化算法计算公式的优化计算公式优化实例

6、分析利用原算法建树过程利用改进的算法建树过程分类规则与决策树之间的转换从生成决策树中提取分类规则由分类规则调整生成决策树对生成决策树进行机器学习本章小结第章改进的决策树算法在档案文本分类中的应用文本分类结构主题信息源的确定停用词典库的设计分词处理词频统计云南大学硕士论文基于决策树的档案文本自动分类算法研宄应用实例本章小结第章总结与展望总结展望参考文献攻读硕士学位期间完成的科研成果云南大学硕士论文基于决策树的档案文本自动分类算法研究第章绪论研究背景及意义随着信息技术与网络技术的迅速发展,计算机中存储或网络中流通的信息数据量正成倍或数倍的增长,人们利用信息技术生产数据能力也大幅提高。以此同时

7、,人们在收集数据、提取所需数据、整理数据三方面的能力也得到了很大的提高。公司的商业管理、政府或事业单位的办公、学校和研究所的科学研宄及工程开发等等领域正使用着无数的数据库。并且,这样的形势正在快速的发展延伸。于是,人们又面临着新的挑战即在这个信息大爆炸的时代,信息过量及大量的垃圾信息,成为我们每一个人都必须面对的问题。因此,我们如何才能从海量的数据中提取当前所需信息?如何才能更好的去识别垃圾信息,更好的去过滤垃圾信息?如何才能将杂乱

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。