毕业论文--基于粗糙集的文本分类研究

毕业论文--基于粗糙集的文本分类研究

ID:35658498

大小:973.50 KB

页数:28页

时间:2019-04-07

毕业论文--基于粗糙集的文本分类研究_第1页
毕业论文--基于粗糙集的文本分类研究_第2页
毕业论文--基于粗糙集的文本分类研究_第3页
毕业论文--基于粗糙集的文本分类研究_第4页
毕业论文--基于粗糙集的文本分类研究_第5页
资源描述:

《毕业论文--基于粗糙集的文本分类研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、HUNANUNIVERSITY毕业论文论文题目基于粗糙集的文本分类研究学生姓名学生学号专业班级自动化1101班学院名称电气与信息工程学院指导老师学院院长200年月日湖南大学毕业设计(论文)第III页摘要粗糙集理论是波兰科学院Z.Pawlak院士提出的一种关于数据分析和推理的理论。最初关于粗糙集理论的研究主要集中在东欧国家,当时并没有引起重视。直到20世纪80年代末90年代初,应用于机器人学习、人工智能后,已经成功应用于数据挖掘、决策分析、模式识别和智能控制等领域。本文对基于粗糙集的文本分类技术进行了研究。本文

2、将粗糙集理论应用于文本分类,通过等距离离散化方法生成文本分类规则,研究了粗糙集理论的属性约简。对特征向量选择和粗糙集理论两种不同的性方法进行了比较,找出高效简洁的属性约简算法。对粗糙集理论中的启发式属性约简算法进行改进,利用两种约简信息,变传统的一次约简为两次约简。本文研究结果证明,利用粗糙集的属性约简进行文本分类,可以大幅降低文本描述维数,很好地解决了文本向量维数过大的问题。通过属性约简生成的文本分类规则,具有较高的分类正确率和使用价值。关键词:粗糙集文本分类特征权重属性约简湖南大学毕业设计(论文)第III

3、页TextClassificationBasedonRoughSetAbstractRoughsettheoryisaFellowofthePolishAcademyofSciencesZ.Pawlakraisedaboutdataanalysisandtheoreticalreasoning.InitialstudiesonroughsettheoryfocusedonEasternEuropeancountries,didnotpayattention.Untilthelate1980searly1990

4、s,usedinrobotlearning,artificialintelligence,hasbeensuccessfullyusedindatamining,decisionanalysis,patternrecognitionandintelligentcontrolandotherfields.Inthispaper,textclassificationbasedonroughsettechnologyhasbeenstudied.Inthispaper,roughsettheoryappliedto

5、textclassification,textclassificationrulesgeneratedbyequidistantdiscretizationmethodtostudythepropertiesofRoughsettheory.Thefeaturevectorselectionandroughsettheoryaretwodifferentmethodswerecomparedtofindsimpleandefficientattributereductionalgorithm.Roughset

6、theoryinheuristicattributereductionalgorithmisimproved,usingtworeductioninformation,changingthetraditionaltimereductionoftworeduction.Resultsofthisstudydemonstratedthattheuseofroughsetattributereductionfortextclassification,cansignificantlyreducethedimensio

7、ntextdescription,agoodsolutiontothevectordimensiontextistoolarge.Byattributereductiongeneratedtextclassificationrules,withahighclassificationaccuracyandvalue.Keyword:Roughset;textclassification;featureweight;attributereduction湖南大学毕业设计(论文)第III页目录第一章绪论11.1研究背

8、景和意义11.2论文主要工作介绍21.3论文的结构和安排2第二章文本分类概述32.1文本分词(TextSegmentation)32.2特征选择42.3文本表示42.4文本分类算法42.4.1朴素贝叶斯算法42.4.2KNN算法52.4.3神经网络算法62.4.4决策树方法6第三章文本特征权重计算方法研究83.1常见特征选择方法83.1.1布尔函数法83.1.2开根号函数83.1.3TFIDF函数8

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。