数据挖掘文本分类器.ppt

数据挖掘文本分类器.ppt

ID:48054483

大小:1.63 MB

页数:24页

时间:2020-01-12

数据挖掘文本分类器.ppt_第1页
数据挖掘文本分类器.ppt_第2页
数据挖掘文本分类器.ppt_第3页
数据挖掘文本分类器.ppt_第4页
数据挖掘文本分类器.ppt_第5页
资源描述:

《数据挖掘文本分类器.ppt》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、文本分类器主要内容Newsgroup文本预处理朴素贝叶斯KNN算法对比评价5234分类器实现概述1分类器实现概述对newsgroup文档集进行预处理,提取出30095个特征词计算每篇文档中的特征词的TF*IDF值,实现文档向量化,在KNN算法中使用用JAVA实现了KNN算法及朴素贝叶斯算法的newsgroup文本分类器作为学习拓展,用C++实现了决策树ID3算法,采用了课件上的训练数据Newsgroup文档预处理文档预处理类DataPreProcess.javaSTEPONE:英文词法分析,去除数字、连字符、标点符号、特殊字符,所有大写字母转换成小写,可以用正则表达式Stringres[]=

2、line.split("[^a-zA-Z]");STEPTWO:去停用词,过滤对分类无价值的词STEPTHRE:词根还原stemming,基于Porter算法Newsgroup文档预处理特征词的提取首先统计在所有文档中出现不重复的单词一共有87554个,对这些词进行统计发现:出现次数大于等于1次的词有87554个出现次数大于等于2次的词有49352个出现次数大于等于3次的词有36456个出现次数大于等于4次的词有30095个策略一:保留所有词作为特征词共计87554个策略二:选取出现次数大于等于4次的词作为特征词共计30095个特征词的选取策略:采用策略一后面将对两种特征词选取策略的计算时间

3、和平均准确率做对比朴素贝叶斯算法描述伯努利模型(Bernoullimodel)–以文件为粒度类条件概率P(tk

4、c)=(类c下包含单词tk的文件数+1)/(类c下单词总数+2)先验概率P(c)=类c下文件总数/整个训练样本的文件总数本分类器选用多项式模型计算根据《IntroductiontoInformationRetrieval》,多项式模型计算准确率更高朴素贝叶斯分类器有两种模型多项式模型(multinomialmodel)–以单词为粒度类条件概率P(tk

5、c)=(类c下单词tk在各个文档中出现过的次数之和+1)/(类c下单词总数+训练样本中不重复特征词总数)先验概率P(c)=类c下的单

6、词总数/整个训练样本的单词总数朴素贝叶斯算法实现贝叶斯算法类NaiveBayesianClassifier.java测试集与训练集创建类CreateTrainAndTestSample.java计算概率用到了BigDecimal类实现任意精度计算用交叉验证法做十次分类实验,对准确率取平均值根据正确类目文件和分类结果文计算混淆矩阵并且输出MapcateWordsProbkey为“类目_单词”,value为该类目下该单词的出现次数,避免重复计算朴素贝叶斯算法分类结果为方便计算混淆矩阵,将类目编号0alt.atheism1comp.graphics2comp.os.m

7、s-windows.misc3comp.sys.ibm.pc.hdwar4comp.sys.mac.hardwar5comp.windows.x6misc.forsale7rec.autos8rec.motorcycles9rec.sport.baseball10rec.sport.hockey11sci.crypt12sci.electronics13sci.med14sci.space15soc.religion.christian16talk.politics.guns17talk.politics.mideast18talk.politics.misc19talk.religion.

8、misc朴素贝叶斯算法分类结果贝叶斯算法分类结果-混淆矩阵表示朴素贝叶斯算法分类结果贝叶斯算法分类结果硬件环境:IntelCore2DuoCPUT57502GHZ,2G内存实验结果取所有词共87554个作为特征词:10次交叉验证实验平均准确率78.19%,用时23min,准确率范围75.65%-80.47%,第6次实验准确率超过80%取出现次数大于等于4次的词共计30095个作为特征词:10次交叉验证实验平均准确率77.91%,用时22min,准确率范围75.51%-80.26%,第6次实验准确率超过80%朴素贝叶斯算法分类结果实验编号0123456789平均准确率(%)75.5175.93

9、79.4879.3075.5177.5780.2679.5478.7577.2577.91结论:朴素贝叶斯算法不必去除出现次数很低的词,因为出现次数很低的词的IDF比较大,去除后分类准确率下降,而计算时间并没有显著减少朴素贝叶斯实验编号准确率(%)KNN算法描述KNN算法描述如下:STEPONE:文本向量化表示,由特征词的TF*IDF值计算STEPTWO:在新文本到达后,根据特征词确定新文本的向量STEPTH

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。