R语言数据导入之read.table函数详解.doc

R语言数据导入之read.table函数详解.doc

ID:54727562

大小:83.00 KB

页数:4页

时间:2020-04-20

R语言数据导入之read.table函数详解.doc_第1页
R语言数据导入之read.table函数详解.doc_第2页
R语言数据导入之read.table函数详解.doc_第3页
R语言数据导入之read.table函数详解.doc_第4页
资源描述:

《R语言数据导入之read.table函数详解.doc》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、R语言数据导入之read.table来源:DataCampBlog,香格里拉(o)/blog编译:思亮qq:55531469你可能会觉得将数据导入R会让人非常沮丧。每个不同类型的文件导入R似乎都需要不同的函数,然后就迷失在众多的函数参数中。长话短说,通过本文这些都可以相当轻松,随时把不同的函数灵活使用,不论你是初学者还是更有经验的用户。为了满足这些需求,本文列举了几个较为简单的数据快速导入的方法,从最简单的文本文档到spss和sas的文档。请继续阅读后面的内容。你的数据导入数据前,需要获取数据,如何获取数据不在本文的探讨范围内。要点:当你要导入数据前需要确认如下几点,这样能保证你

2、正确导入数据到R中。•如果你用的是电子表格类(spreadsheet)的数据,第一行一般是表头,第一列往往是行号或者是样本数据的id•文件的分隔符要确认,常见有逗号(,),tab(),空格()•字符编码,一般非Window默认字符编码要使用fileEncoding参数调整•字段,数值或者名字中的空格要尽量避免使用,换句话说,每个词会可能被解析成单独的变量•如果需要可使用.代替空格用于词之间的分隔•短的变量名字要好于长的名字•尽量不要在列名中使用下列符号,如,?,$,%,^,&,*,(,),-,#,?,,,<,>,/,

3、,,[,],{,};•如果使用excel表,应删除多余的列或者

4、是注释一类的内容•确保缺失数据标记为空准备工作空间可以参考使用Rsudio这类的编辑器,为了确保工作空间中没有已有的对象对当前的操作有影响,需要清空内存对象。rm(list=ls())#清除内存对象读取txt文档将下述内容复制到yourdata.txt至e:/work下//Contentsof.txt16a27b38c49d510e我们需要用到setwd('e:/work')#设置工作空间df<-read.table("yourdata.txt",header=F,comment.char="/")df##V1V2V3##116a##227b##338c##449d##5510e

5、read.table的英文帮助有点晦涩,现在讲各个参数详解•file:文件名,使用一个字符串,可能需要全路径符号不能出现,可以使用/或者。也可以是一个文本连接(见connection函数),也可以是一个URL链接的文本文档。•header:逻辑值(FALSE或TRUE)文件第一行是否包含变量名(列名)。我们建议你明确地设定header参数。按照惯例,首行只有对应列的字段而没有行标签对应的字段。因此,它会比余下的行少一个字段。(如果需要在R里面看到这一行,设置header=TRUE。)如果要读取的文件里面有行标签(rowname)的头字段(可能是空的),以下面的方式读取read

6、.table("file.txt",header=TRUE,row.names=1)•sep:文件中字段(列)的分隔符,打开文件可以看到文使用的分隔符,默认选择sep=''(代表任意空白字符作为分隔符,如空格,制表符,换行符)•quote:默认情况下,字符串可以被"或'括起,并且两种情况下,引号内部的字符都作为字符串的一部分。有效的引用字符(可能没有)的设置由参数quote控制。对于sep="",默认值改为quote=""。–引号中使用引号:如果没有设定分隔字符,在被引号括起的字符串里面,引号需要用C格式的逃逸方式逃逸,即在引号前面直接加反斜杠。如果设定了分隔符,在被引号括起的字

7、符串里面,按照电子表格的习惯,把引号重复两次以达到逃逸的效果。例如'Onestringisn''ttwo',"onemore"可以被下面的命令读取read.table("testfile",sep=",")这在默认分隔符的文件里面不起作用。•dec:用来标志小数点的字符,有些国家用“,”来区分小数点。•row.names:用数字或者字符表示表中行号的列,若为NULL则会自动编号。一般当表中包含了表头时,如果第一行(表头行)的字段比数据的列数少一个时,指定首行为row.name比较有用。•col.names:指定列名的字符向量。默认是V1,V2,V3,...•as.is:read.

8、table默认将字符型变量转化为因子类,该参数控制列是否保留字符型,可以是逻辑型,数值型或者是字符型向量。as.is对每列专用,而不是每个变量。因此,它对行标签(行号)列也同样适用(如果有的话)。•na.string:代表缺失数据的值,参数na.strings是一个可以包括一个或多个缺损值得字符描述方式的向量。数值列的空字段也被看作是缺损值。一般不用设置除非有的数据中“9999”这类表示缺失值情况出现时需要特别设置。•colClasses:指定各列数据类型的字符向量。除非你采取特

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。