文档详情

第4讲 数据操作和数据管理2.docx

发布:2017-12-15约5.83千字共13页下载文档
文本预览下载声明
第五讲数据操作和数据管理二一、数据的追加与合并1.[D] append . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Append datasets命令描述:把磁盘上的数据集追加到内存数据集的末尾,其中内存数据集称作主数据集,磁盘数据集称作追加数据集。数值型和字符型变量保留更精确的存储类型。主数据集定义的变量标签和数据集标签不改变。进一步讨论:如果追加数据集包含字符串变量,合并后的数据集在这个变量的附加数据将有数字缺失值;追加数据集的字符串变量的内容将被忽略。如果追加数据集包含数值变量,合并后的数据集将有在这个变量的附加数据的空字符串;追加数据集的数值变量的内容被忽略。(这说明追加合并前需要保证变量类型一致)例1:useeven,clearlistdescribe using odd(using的使用,summarize和list不能用)append using oddlist例2:(同例1,追加合并与变量的顺序无关)useodd,clearlistdescribe using evenappend using evenlist例3:(同例1,无论主数据集或追加数据集,都保留更精确的存储类型)use even, clearappend using odddescribe例4:(添加值标签)usecapoplistdescribe using ilpopdescribe using txpopappend using ilpoptxpop, generate(state)label define statelab 0 CA 1 IL 2 TXlabel values state statelablist2.[D] merge . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Merge datasetsmerge Merge datasets (合并数据集。匹配于一个或多个指定的关键变量,合并主数据集和从数据集的对应观测值。append是为已有变量增加新观测值)(合并从主数据集的第1个观测值开始,对于主数据集的每1个观测值,合并在从数据集中找到的对应观测值,记录匹配或不匹配的结果。对主数据集的第2个观测值重复上述操作,直到主数据集的匹配检查全部完成。最后再检查从数据集中未与主数据集匹配的观测值。默认情况下,未匹配的观测值保留在合并数据集中,无论他们来自主数据集或从数据集。) 参考文献:Gould, W. W. 2011a. Merging data, part 1: Merges gone bad. The Stata Blog: Not Elsewhere Classified./2011/04/18/merging-data-part-1-merges-gone-bad/Gould, W. W. 2011b. Merging data, part 2: Multiple-key merges. The Stata Blog: Not Elsewhere Classified./2011/05/27/merging-data-part-2-multiple-key-merges/1:1 merges原理关键变量同时出现在两个数据集中,并且分别对应唯一的观测值。假设有两个数据集:输入:merge 1:1 id using filename输入(面板数据的例子):merge 1:1 pid time using filenamem:1 merges原理关键变量同时出现在两个数据集中,并且在主数据集中对应多个观测值,在从数据集中对应唯一观测值。假设有两个数据集:merge m:1 region using filename1:m merges原理类似于merge m:1,只是转换主数据集和从数据集的位置。merge 1:m region using filename需要注意的是,Stata不建议使用m:m merges,这种合并不是一个好主意。你需要首先处理数据,然后使用1:m merge或 m:1 merge。序贯合并(Sequential merges)和m:m merges同样有风险。排除故障m:m merges1.有时间变量:假设一个面板数据,每个id变量/标识符对应4个观测值。merge m:m subjectid using filename (错误)merge 1:m subjectid time using
显示全部
相似文档