欢迎来到天天文库
浏览记录
ID:33927488
大小:365.43 KB
页数:30页
时间:2019-02-28
《Text Mining in R.pdf》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、TechnicalReport2012R语言环境下的文本挖掘TextMininginRVersion0.0220120321刘思喆主页更新http://bjt.name/todo联系方式sunbjt@gmail.com新浪微博@刘思喆Copyright©2012RandalltheContributorstoRtm.Allrightsreserved.R以及Rtm的作者拥有版权©2012。保留所有权利。Permissionisgrantedtocopy,distributeand/ormodifythisdocumentunder
2、thetermsoftheGNUFreeDocumentationLicense,Version1.2oranylaterversionpublishedbytheFreeSoftwareFoundation;withtheInvariantSectionsbeingContributors,noFront-CoverTexts,andnoBack-CoverTexts.你可以拷贝、发布或者修改这份文档,但必须遵守自由软件组织颁布的GNU自由文档许可证1.2或者以后版本的条款。InvariantSections包括Contribu
3、tors,没有Front-CoverTexts和Back-CoverTexts。目录1文本挖掘介绍32自然语言处理技术㔬述32.1相关的R包.......................................32.2stemming和Tokenization...............................52.3中文分词........................................63tm包63.1简介...........................................6
4、3.2数据读入........................................63.3数据输出........................................83.4语料库的提取......................................83.5信息转化........................................93.6转化为纯文本......................................93.6.1去除多余的空白................
5、.................93.6.2小写变化....................................103.6.3停止词去除...................................103.6.4填充.......................................103.7过滤...........................................103.8元数据管理.......................................113.9标准操作和函
6、数.....................................133.10创建词条-文档关系矩阵................................143.11对词条-文档关系矩阵操作...............................143.12字典...........................................164网页解析的利器–XML包174.1网页解析........................................174.2字符集转化.......
7、................................215XML同tm包的配合使用(todo)216一些文本挖掘方面的应用216.1基础分析技术......................................226.1.1文本聚类....................................226.1.2文本分类....................................236.2潜变量语义分析(notdone)..............................246.3主题
8、模型(Topicmodel)...............................24目录用R语言做文本挖掘
9、2A附录26A.1关于XML文件.....................................26A.2关于正则表达式
此文档下载收益归作者所有