欢迎来到天天文库
浏览记录
ID:13145400
大小:706.50 KB
页数:40页
时间:2018-07-20
《数据挖掘中的文本挖掘的分类算法综述》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、数据挖掘中的文本挖掘的分类算法综述摘要随着Internet上文档信息的迅猛发展,文本分类成为处理和组织大量文档数据的关键技术。本文首先对数据挖掘进行了概述包括数据挖掘的常用方法、功能以及存在的主要问题;其次对数据挖掘领域较为活跃的文本挖掘的历史演化、研究现状、主要内容、相关技术以及热点难点问题进行了探讨;在第三章先分析了文本分类的现状和相关问题,随后详细介绍了常用的文本分类算法,包括KNN文本分类算法、特征选择方法、支持向量机文本分类算法和朴素贝叶斯文本分类算法;;第四章对KNN文本分类算法进行深入的研究,包括基
2、于统计和LSA降维的KNN文本分类算法;第五章对数据挖掘、文本挖掘和文本分类的在信息领域以及商业领域的应用做了详细的预测分析;最后对全文工作进行了总结和展望。关键词:数据挖掘,文本挖掘,文本分类算法ABSTRACTWiththedevelopmentofWeb2.0,thenumberofdocumentsontheInternetincreasesexponentially.Oneimportantresearchfocusonhowtodealwiththesegreatcapacityofonlinedoc
3、uments.Textclassificationisonecrucialpartofinformationmanagement.Inthispaperwefirstintroducethebasicinformationofdatamining,includingthemethods,contentsandthemainexistingproblemsindataminingfields;thenwediscussedthetextmining,oneactivefieldofdatamining,toprov
4、ideabasicfoundationfortextclassification.AndseveralcommonalgorithmsareanalyzedinChapter3.Inchapter4thoroughresearchofKNNtextclassificationalgorithmsareillustratedincludingthestatisticalanddimensionreductionbasedonLSAandinchapter5wemakesomepredictionsfordatami
5、ning,textminingandtextclassificationandfinallyweconcludeourwork.KEYWORDS:datamining,textmining,textclassificationalgorithms,KNN目录摘要1ABSTRACT1目录2第一章数据挖掘概述31.1数据挖掘介绍31.2数据挖掘常用方法41.3数据挖掘的功能51.4数据挖掘的主要问题5第二章文本挖掘概述82.1文本挖掘介绍82.1.1文本挖掘的历史演化82.1.2文本挖掘的定义82.1.3文本挖掘的研
6、究现状92.2文本挖掘主要内容92.3文本挖掘技术102.3.1数据预处理技术102.3.2数据挖掘分析技术112.4文本挖掘热点难点问题12第三章文本分类算法143.1文本分类概述143.1.1文本分类的研究现状143.1.2文本分类模型153.1.3文本分类面临的挑战173.1.4文本分类亟需解决的问题183.2常用文本分类算法183.2.1文本分类中的特征选择方法193.3.2支持向量机文本分类算法223.3.3朴素贝叶斯文本分类算法23第四章KNN文本分类算法研究274.1KNN文本分类算法介绍274.2
7、基于统计的KNN文本分类算法研究274.3基于LSA降维的KNN文本分类算法研究304.4其他改进的KNN文本分类算法31第五章文本挖掘应用345.1数据挖掘应用345.1.1数据挖掘解决的典型商业问题345.1.2数据挖掘在市场营销的应用345.1.3数据挖掘在企业危机管理中的应用355.2文本挖掘应用375.3文本分类应用37第六章结论39参考文献40第一章数据挖掘概述1.1数据挖掘介绍需要是发明之母。近年来,数据挖掘引起了信息产业界的极大关注,其主要原因是存在大量数据,可以广泛使用,并且迫切需要将这些数据转
8、换成有用的信息和知识。获取的信息和知识可以广泛用于各种应用,包括商务管理,生产控制,市场分析,工程设计和科学探索等[1]。数据挖掘出现于20世纪80年代后期,是数据库研究中一个很有应用价值的新领域,是一门交叉性学科,融合了人工智能、数据库技术、模式识别、机器学习、统计学和数据可视化等多个领域的理论和技术.数据挖掘作为一种技术,它的生命周期正处于沟坎阶段,需要时间和精力去研
此文档下载收益归作者所有