巧用r进行中文文本信息处理

巧用r进行中文文本信息处理

ID:34442860

大小:1.05 MB

页数:3页

时间:2019-03-06

巧用r进行中文文本信息处理_第1页
巧用r进行中文文本信息处理_第2页
巧用r进行中文文本信息处理_第3页
资源描述:

《巧用r进行中文文本信息处理》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、SOFTWAREDEVELOPMENTANDDESIGN软件开发与设计巧用R进行中文文本信息处理112贾满磊,李大展,王水(1.南阳理工学院,河南南阳473000;2.宁波大红鹰学院,浙江宁波315100)摘要:以统计道藏目录的中文词频为例,讲述使用R处理Unicode中文的相关技巧和注意事项。关键词:文本挖掘;R;中文;arulesSequencesTechsandTricksofChineseTextMiningUsingR112JIAMan-lei,LIDa-zhan,WANGShui(1.Na

2、nyangInstituteofTechnology,He'nanNanyang473000,China;2.NingboDahongyingUniversity,ZhejiangNingbo315100,China)Abstract:Usesthewordfrequencystatisticalcomputingasanempiricalcasetodiscussthetechs&tricksofdealingwithUnicodeChinesetextUsingR.Keywords:textmin

3、ing;R;Chinesetext;arulesSequencesR号称“万能的R”,这个开源的系统基本上可以处理想需要注意的是,“安装”和“加载”包不是一回事。安到的任何计算任务,包括统计处理、数据挖掘、数据可视化装以后还需要在菜单中加载已经安装的包,才能在R中使用等[1]。由于中文的特殊性,特别对于需要使用Unicode编码的该包提供的函数。字符集,在使用R处理的时候,需要有特殊的处理技巧;以一旦程序包安装后,每次使用的时候,可以通过命令:道藏目录文本中的字频统计为例,来介绍相关的技术和技巧。li

4、brary(包名)1安装和加载附加程序包来加载它。例如:R和其他商业化的计算系统非常不一样的地方在于,有无library(arulesSequences)数的人在为R添加他们认为有应用价值的模块(称为“pack-加载序列模式挖掘包arulesSequences。可以看到系统提示:ages”或程序包)。而这些软件包的安装也简单到的不能再简Loadingrequiredpackage:arules单:不需要复杂的依赖关系,不要编译、make等,只需要将Loadingrequiredpackage:Matr

5、ixpackage解压后的目录拷贝到library目录下即可。Loadingrequiredpackage:lattice不过,R提供了更为方便的一体化搜索、安装附加包的方说明arulesSequences包依赖于arules、Matrix、lattice3个法:包,系统自动加载了它们。在R的“程序包”菜单中,有4个命令:2从文本文件中读取中文数据(1)设定CRAN镜像R包含多个read函数(例如read.csv,read.delim等),用(2)选择软件库于从文本文件中读取数据。但是,包含特殊中文字

6、符(例如(3)安装程序包繁体字)的文本文件往往使用UTF-8编码保存,这样的文件(4)更新程序包不能被R正确读取。解决方法是:其中第一个命令是要你选择通过哪个CRAN的镜像服务(1)CSV数据文件使用ANSI编码保存,但是在读入的时器(mirror)来查找当前可用的R软件包。CRAN是“Com-候使用GBK编码,否则不能显示汉字。(使用latin1也可以prehensiveRArchiveNetwork”的缩写,意为“R相关档案大读出,但显示乱码;使用utf8不能读出。)全网”,汇集了所有常用的软件包

7、及相关文档。可以选择一个例子:read.delim("D:/my.csv",sep=',',header=F,fileEn-距离自己的工作地点比较近的镜像服务器,例如“China(Be-coding='GBK')jing1)”,这样后续的操作就是和这个服务器联网进行的。(2)数据文件使用Unicode保存。这里只说在Windows系然后使用第二个菜单“选择软件库”,选择你要安装的统下的处理:程序包所在的“库”。一般来说,常用的包都在CPAN和Windows记事本可以保存为3种格式,其中:“Unicod

8、e”CPANextra库中,但如果是学生物的,可能会用到其他的的文本文件,在R中读入的时候,需要使用fileEncoding="库,例如BioC包含超过500个用于基因数据处理的包,详情UTF-16LE";使用“Unicodebigendian”格式保存的,需要使参见文献[2]。命令3打开一个列出所有可用软件包的窗口,从中可以作者简介:李大展(1978-),男,研究生,研究方向:中文信选择要安装的包。对于文本的序列模式挖掘来说,需要的包息处理及法学;贾满

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。