大规模数据读入pdf.pdf
文本预览下载声明
R语言编程技巧
DATAGURU专业数据分析社区
R语言编程技巧第一版 讲师艾达(Ada )
大规模数据读入 第2课
DATAGURU专业数据分析社区
R语言编程技巧第一版 讲师艾达(Ada )
本周课程介绍
R语言之数据读入介绍
处理大规模数据的编程要点
读取大型文本文档常用方法
大规模数据读入案例
DATAGURU专业数据分析社区
R特殊编程技巧第一版 讲师艾达
R语言之数据读入介绍
R会把所有的对象读取存入虚拟内存中,内存限制主要取决于R的build版,而在32位的windows
下,取决于操作系统的版本 ,向量中的元素个数最大为2147483647。
文本文档数据读入核心函数:read.table( ) 。此外还有read.csv( ), read.csv2( ), read.delim( ),
read.delim2( )等函数与read.table( )类似。
DATAGURU专业数据分析社区
R特殊编程技巧第一版 讲师艾达
R语言之数据读入介绍
企业级大数据处理:
- R可以处理GB级的数据
- R分析的结果则是MB级数据的输出
DATAGURU专业数据分析社区
R特殊编程技巧第一版 讲师艾达
read.table( )参数详细讲解
file :文件名,使用一个字符串,可能需要全路径符号\不能出现,可以使用/ 或者\\ ,也可以是一
个文本连接 ,也可以是一个URL链接的文本文档。
header :逻辑值(FALSE或TRUE )文件第一行是否包含变量名(列名),一般最好明确地设定
header 参数。按照惯例,首行只有对应列的字段而没有行标签对应的字段。
sep :文件中字段(列)的分隔符,打开文件可以看到文使用的分隔符,默认选择sep=’’(代表任意
空白字符作为分隔符,如空格,制表符,换行符)
dec :用来标志小数点的字符,有些国家用“,” 来区分小数点。
DATAGURU专业数据分析社区
R特殊编程技巧第一版 讲师艾达
read.table( )参数详细讲解
quote: 字符中有引号,直接用sep=“ ”做分隔符是无法读入函数的,必须配合quote= “”一
起使用,才可以区分出空格分隔符;如果分隔符sep=“ ,”且 quote= “” ,就变成了一个字符
串。
s :用数字或者字符表示表中行号的列,若为NULL则会自动编号。一般当表中包含了
表头时,如果第一行(表头行)的字段比数据的列数少一个时,指定首行为比较有用。
s :指定列名的字符向量。默认是V1 ,V2 ,V3 ,…
as.is :read.table默认将字符型变量转化为因子类,该参数控制列是否保留字符型,可以是逻辑型
,数值型或者是字符型向量。as.is对每列专用,而不是每个变量。因此,它对行标签(行号)列
也同样适用(如果有的话)。
DATAGURU专业数据分析社区
R特殊编程技巧第一版 讲师艾达
read.table( )参数详细讲解
na.string :代表缺失数据的值,参数na.strings是一个可以包括一个或多个缺损值得字符描述方
式的向量。数值列的空字段也被看作是缺损值。一般不用设置除非有的数据中 “9999”这类表示
缺失值情况出现时需要特别设置。
显示全部