数据采集与处理 课件 任务2 认知数据清洗.pptx
项目三数据预处理认知
任务2认知数据清洗
一、数据清洗概述数据清洗是指对数据进行重新审查和校验的过程中,发现并纠正数据文件中可识别的错误,按照一定的规则把错误或冲突的数据洗掉,包括检查数据一致性,处理无效值、缺失值和冗余值等,数据清理一般是由计算机而不是人工完成。
二、数据清洗的方法缺失数据一般在数据表中表现为空白单元格或错误标识符(#div/0!)。检测方法:在Excel软件中可单击“开始”选项卡的“编辑”功能区,通过“定位”→“定位条件”→“空值”→“确定”(或者使用【Ctrl+G】组合键),将缺失数据一次性选定。(一)缺失数据的清洗符号产生原因解决方法#DIV/0!①公式中的除数使用了指向空白单元格或包含零值的单元格的引用②输入的公式中包含明显的除数零①修改单元格引用,或在用作除数的单元格中输入不为零的值②将零改为非零值
二、数据清洗的方法(一)缺失数据的清洗处理方法:①忽略缺失值:将有缺失数据的记录保留,仅在相应的分析中做必要的排除。当调查的样本量比较大,缺失数据的数量又不是很多,而且变量之间也不存在高度相关的情况下,采用这种方式处理缺失数据比较可行。②删除缺失值:将有缺失数据的记录删除,删除记录会导致样本量减少,所以此方法不适于小样本量的数据集。③填充缺失值:如果可以推断出正确数值,则填充为逻辑正确值如果无法推断出正确数值,则可以填充“未知”,或者用样本统计量代替缺失数据,最典型的做法是使用变量的平均值替代。替代后由于该变量的平均值会保持不变,因此其他的统计量(如标准差和相关系数等)也不会受很大的影响。
二、数据清洗的方法(一)缺失数据的清洗练习题:整理某店铺9月的销售数据,其中9月25日的支付金额和客单价数据缺失。考虑到每天的客单价相对稳定,因此可以用平均客单价代替缺失数据。步骤1:选中D列,在Excel窗口下方的状态栏中可以看到平均值为152.7。
步骤2:在D7单元格中输入152.7,然后选择B7单元格,在编辑栏中输入公式=C7*D7按【Enter】键确认,得出支付金额数据。
二、数据清洗的方法
二、数据清洗的方法(二)重复数据的清洗为了保证数据的一致性,我们需要对重复数据进行处理。在完成重复数据的查找后,即可删除重复数据。实体重复字段重复所有字段完全重复某一个或多个不该重复的字段重复,如Name字段重复重复数据
的类型
二、数据清洗的方法(二)重复数据的清洗选择“开始”|“条件格式”|“突出显示单元格规则”|“重复值”命令把重复的数据及其所在单元格标为不同颜色以便识别条件格式法重复数据的查找高级筛选法函数法数据透视表法利用Excel的“高级筛选”功能,选择不重复的记录选择不重复的记录该函数的语法规则:COUNTIF(range,criteria)range:计算其中非空单元格数目的区域criteria:以数字、表达式或文本形式定义的条件利用COUNTIF函数对重复数据进行识别拖动选择相应字段,设置“计数”汇总,其中出现两次及以上的数据就属于重复项统计各数据出现的频次
二、数据清洗的方法(二)重复数据的清洗通过按钮删除重复项通过排序删除重复项通过筛选删除重复项单击“数据”选项卡下的“删除重复项”按钮,将显示有多少重复值被删除,有多少唯一值被保留在利用COUNTIF函数对重复数据进行识别的基础上,对有重复标记的列进行降序排列,删除数值大于1的项在利用COUNTIF函数对重复数据进行识别的基础上,对有重复标记的列进行筛选,筛选出数值不等于1的项删除重复数据的方法
二、数据清洗的方法(二)重复数据的清洗练习题:利用第三方采集工具从京东商城采集关于玻璃杯的商品数据,其中包含了多条重复的数据,请用不同方法对重复数据进行识别,并删除重复数据。
二、数据清洗的方法(二)重复数据的清洗练习题:COUNTIF函数法:1.在“京东价”左侧插入一列,标题设为“第几次出现”2.在C2单元格输入公式“=COUNTIF($B$2:B2,B2)”,该公式用于对“商品ID”进行计数3.筛选出大于1的数据,即为重复数据(也可排序找出重复数据,但顺序会乱)
二、数据清洗的方法实操练习:在采集某商品的库存数据时,由于部分SKU(商品最小存货单位)的期初库存和期末库存数据无法采集,导致对应的库存周转率结果错误,同时考虑到这些数据无法手动修改。因此,这里仅需要对表格中的错误信息进行处理,即对于数据不完整的SKU,其库存周转率用“/”号来表示,最后再对整个表格的数据进行去重检查与处理。1选择单元格区域、设置公式2修改错误、删除重复数据
二、数据清洗的方法3扩展选定区域、设置检查项4提示已经删除了重复数据专家点拨:?IFERROR?函数的语法格式为?IFERROR?(?Value?,?Value?_?If?_?E