SPSS Modeler 的数据理解和数据处理.pdf
文本预览下载声明
SPSS Modeler 的数据理解和数据处理
本文详细介绍了如何使用 IBM SPSS Modeler 来进行数据挖掘工作中的数据
理解工作,其中主要包括对缺失值的理解和处理,对异常值的理解和处理,以
及如何利用 Modeler 来观察和分析数据项之间的内在关系
前言
在数据挖掘项目中,数据理解常常不被重视。但其实数据理解在整个数据
挖掘项目中扮演着非常重要的角色,可以说是整个项目的基石。在计算机领域
有一句话,“Garbage in,garbage out.” 意思就是说,如果你的输入数据没有
经过科学的预处理,你所得到的结果必将是错误的。通过数据理解,我们可以
理解数据的特性和不足,进而对数据进行预处理,使得将来得到的模型更加稳
定和精确。其次通过理解数据项之间的关系,我们可以为建模时输入数据项和
模型的选择提供重要的信息
首先,我们需要了解 CRISP-DM 模型,从而了解数据理解在数据挖掘工
作的位置和作用。接着我们利用一个例子,分三个章节来介绍如何利用
Modeler 来理解和处理原始数据中的缺失值,异常值和各个数据项之间的内在
关系。
CRISP-DM 模型
数据挖掘是一项复杂的工程,为了让整个项目便于控制和管理,我们必须
遵从一定的标准流程。而 CRISP-DM 模型就是数据挖掘业界比较流行的一种
模型。
图 1. CRISP-DM 模型图
CRISP-DM,即跨行业数据挖掘标准流程,这是一种业界认可的用于指导
数据挖掘工作的方法。作为一种方法,它包含工程中各个典型阶段的说明、每
个阶段所包含的任务以及这些任务之间的关系的说明;作为一种流程模型,
CRISP-DM 概述了数据挖掘的生命周期。图 1 展示了 CRISP-DM 中定义的
数据挖掘生命周期中的六个阶段。
商业理解:了解进行数据挖掘的业务原因和数据挖掘的目标
数据理解:深入了解可用于挖掘的数据
数据准备:对待挖掘数据进行合并,汇总,排序,样本选取等
操作
建立模型:根据前期准备的数据选取合适的模型
模型评估:使用在商业理解阶段设立的业务成功标准对模型进
行评估
结果部署:使用挖掘后的结果提升业务的过程
下面,我们以某超市的市场推广活动为例,从商业理解开始,一起来学习
如何利用 Modeler 的强大功能来进行数据理解。
商业理解:
现状:
某超市新增加了体育服饰用品营业部。开业一段时间,由于体育服饰用品
地处二楼,很多顾客还不知道,营业额没有达到预期。
商业目标:
经理决定进行一次促销活动,具体活动是向会员中的部分用户邮寄打折优
惠卡。考虑到优惠卡制作费用,邮寄费用,经理希望能够向那些最有购买潜力
的客户邮寄优惠卡。使这些潜在用户了解本超市的体育品牌和刺激他们进行消
费。
活动计划:
首先调取自体育用品部营业来的所有销售记录,得到购买体育用品的会员
记录,建立模型,对本超市所有会员进行预测,对那些最有可能购买体育用品
且尚未购买的客户邮寄优惠卡。以刺激这些潜在客户的消费。
验证条件:
产生潜在客户名单信息后,随机抽取 100 名进行电话调查,表示愿意接
受优惠券并且表示会来消费的顾客比例高于 70%.
数据理解
经理将这个任务交给小王来负责,小王首先对超市内现有的数据进行分
析:
1.会员基本信息:会员申请会员卡时登记的信息,其中包含了
会员年龄,职业,学历,电话,工作,收入,住址等信息。
2. 消费信息:会员消费的明细记录。
了解了现有数据后,小王发现有以下问题:
1.会员基本信息是会员提供的,里边有很多值是缺失的,有的
看起来是错误的。
2. 而消费信息由于是每次消费后电脑生成,信息是完整的,但
是信息却很庞杂,不利于分析。
3. 可用的数据项非常多,到底用哪些数据项来进行数据预测
呢?
这几个问题都是数据理解需要解决的问题,下边我们就来看一下如何利用
Modeler 来帮助我们进行数据理解:
使用 Modeler 进行缺失值分析
什么是缺失值?
缺失值就是指数据文件中的某些数据项是未知的值。几乎所有的商业数据
挖掘中,都要遇到缺失值的问
显示全部