玩玩文本挖掘.pdf

玩玩文本挖掘.pdf

ID:52768446

大小:422.29 KB

页数:11页

时间:2020-03-30

玩玩文本挖掘.pdf_第1页
玩玩文本挖掘.pdf_第2页
玩玩文本挖掘.pdf_第3页
玩玩文本挖掘.pdf_第4页
玩玩文本挖掘.pdf_第5页
资源描述:

《玩玩文本挖掘.pdf》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库

1、玩玩文本挖掘-wordcloud、主题模型与文本分类Askyer(QQ:642874367)序本文主要介绍文本挖掘的常见方法,主要包括词频分析及wordcloud展现、主题模型、文本分类、分类评价等。分类主要包括无监督分类(系统聚类、KMeans、stringkernals),有监督分类(knn、SVM)。文本挖掘概念将数据挖掘的成果用于分析以自然语言描述的文本,这种方法被称为文本挖掘(TextMining)或文本知识发现(KnowledgeDiscoveryinText)。文本挖掘主要过程:特征抽取、特征选择、文本分类、文本聚类、模型评价。主题

2、模型(TopicMode)介绍主题模型是专门抽象一组文档所表达“主题”的统计技术。最早的模型是probabilisticlatentsemanticindexing(PLSI),后来LatentDirichletallocation(LDA,潜在狄利克雷分配模型)模型成为了最常见的主题模型,它可以认为是PLSI的泛化形式。LDA主题模型涉及到贝叶斯理论、Dirichlet分布、多项分布、图模型、变分推断、EM算法、Gibbs抽样等知识。实例分析0.数据预处理数据来源于sougou实验室数据。数据网址:http://download.labs.so

3、gou.com/dl/sogoulabdown/SogouC.mini.20061102.tar.gz文件结构└─Sample├─C000007汽车├─C000008财经├─C000010IT├─C000013健康├─C000014体育├─C000016旅游├─C000020教育├─C000022招聘├─C000023文化└─C000024军事采用Python对数据进行预处理为train.csv文件,并把每个文件文本数据处理为1行。1.读取资料库setwd("d:\Testing\R\w12")csv<-read.csv("train.cs

4、v",header=T,stringsAsFactors=F)mystopwords<-unlist(read.table("StopWords.txt",stringsAsFactors=F))2.数据预处理(中文分词、stopword处理)library(tm)#移除数字removeNumbers=function(x){ret=gsub("[0-90123456789]","",x)}#中文分词,也可以考虑使用rmmseg4j、rsmartcnwordsegment<-function(x){library(Rwordseg)segment

5、CN(x)}#去除停止词,效果比较差,可以进一步完善removeStopWords=function(x,words){ret=character(0)index<-1it_max<-length(x)while(index<=it_max){if(length(words[words==x[index]])<1)ret<-c(ret,x[index])index<-index+1}ret}sample.words<-lapply(csv$text,removeNumbers)sample.words<-lapply(sample.words,w

6、ordsegment)#先处理中文分词,再处理stopwords,防止全局替换丢失信息sample.words<-lapply(sample.words,removeStopWords,mystopwords)#构建语料库corpus=Corpus(VectorSource(sample.words))meta(corpus,"cluster")<-csv$typeunique_type<-unique(csv$type)#建立文档-词条矩阵(sample.dtm<-DocumentTermMatrix(corpus,control=list(w

7、ordLengths=c(2,Inf))))3.wordcloud展示library(wordcloud)#不同文档wordcloud对比图sample.tdm<-TermDocumentMatrix(corpus,control=list(wordLengths=c(2,Inf)))tdm_matrix<-as.matrix(sample.tdm)png(paste("sample_comparison",".png",sep=""),width=1500,height=1500)comparison.cloud(tdm_matrix)titl

8、e(main="samplecomparision")dev.off()#按分类汇总wordcloud对比图n<-nrow(csv)zz

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。