文档详情

SPSS Modeler 的数据理解和数据处理.pdf

发布:2019-08-08约5.87千字共20页下载文档
文本预览下载声明
SPSS Modeler 的数据理解和数据处理 本文详细介绍了如何使用 IBM SPSS Modeler 来进行数据挖掘工作中的数据 理解工作,其中主要包括对缺失值的理解和处理,对异常值的理解和处理,以 及如何利用 Modeler 来观察和分析数据项之间的内在关系 前言 在数据挖掘项目中,数据理解常常不被重视。但其实数据理解在整个数据 挖掘项目中扮演着非常重要的角色,可以说是整个项目的基石。在计算机领域 有一句话,“Garbage in,garbage out.” 意思就是说,如果你的输入数据没有 经过科学的预处理,你所得到的结果必将是错误的。通过数据理解,我们可以 理解数据的特性和不足,进而对数据进行预处理,使得将来得到的模型更加稳 定和精确。其次通过理解数据项之间的关系,我们可以为建模时输入数据项和 模型的选择提供重要的信息 首先,我们需要了解 CRISP-DM 模型,从而了解数据理解在数据挖掘工 作的位置和作用。接着我们利用一个例子,分三个章节来介绍如何利用 Modeler 来理解和处理原始数据中的缺失值,异常值和各个数据项之间的内在 关系。 CRISP-DM 模型 数据挖掘是一项复杂的工程,为了让整个项目便于控制和管理,我们必须 遵从一定的标准流程。而 CRISP-DM 模型就是数据挖掘业界比较流行的一种 模型。 图 1. CRISP-DM 模型图 CRISP-DM,即跨行业数据挖掘标准流程,这是一种业界认可的用于指导 数据挖掘工作的方法。作为一种方法,它包含工程中各个典型阶段的说明、每 个阶段所包含的任务以及这些任务之间的关系的说明;作为一种流程模型, CRISP-DM 概述了数据挖掘的生命周期。图 1 展示了 CRISP-DM 中定义的 数据挖掘生命周期中的六个阶段。  商业理解:了解进行数据挖掘的业务原因和数据挖掘的目标  数据理解:深入了解可用于挖掘的数据  数据准备:对待挖掘数据进行合并,汇总,排序,样本选取等 操作  建立模型:根据前期准备的数据选取合适的模型  模型评估:使用在商业理解阶段设立的业务成功标准对模型进 行评估  结果部署:使用挖掘后的结果提升业务的过程 下面,我们以某超市的市场推广活动为例,从商业理解开始,一起来学习 如何利用 Modeler 的强大功能来进行数据理解。 商业理解: 现状: 某超市新增加了体育服饰用品营业部。开业一段时间,由于体育服饰用品 地处二楼,很多顾客还不知道,营业额没有达到预期。 商业目标: 经理决定进行一次促销活动,具体活动是向会员中的部分用户邮寄打折优 惠卡。考虑到优惠卡制作费用,邮寄费用,经理希望能够向那些最有购买潜力 的客户邮寄优惠卡。使这些潜在用户了解本超市的体育品牌和刺激他们进行消 费。 活动计划: 首先调取自体育用品部营业来的所有销售记录,得到购买体育用品的会员 记录,建立模型,对本超市所有会员进行预测,对那些最有可能购买体育用品 且尚未购买的客户邮寄优惠卡。以刺激这些潜在客户的消费。 验证条件: 产生潜在客户名单信息后,随机抽取 100 名进行电话调查,表示愿意接 受优惠券并且表示会来消费的顾客比例高于 70%. 数据理解 经理将这个任务交给小王来负责,小王首先对超市内现有的数据进行分 析: 1.会员基本信息:会员申请会员卡时登记的信息,其中包含了 会员年龄,职业,学历,电话,工作,收入,住址等信息。 2. 消费信息:会员消费的明细记录。 了解了现有数据后,小王发现有以下问题: 1.会员基本信息是会员提供的,里边有很多值是缺失的,有的 看起来是错误的。 2. 而消费信息由于是每次消费后电脑生成,信息是完整的,但 是信息却很庞杂,不利于分析。 3. 可用的数据项非常多,到底用哪些数据项来进行数据预测 呢? 这几个问题都是数据理解需要解决的问题,下边我们就来看一下如何利用 Modeler 来帮助我们进行数据理解: 使用 Modeler 进行缺失值分析 什么是缺失值? 缺失值就是指数据文件中的某些数据项是未知的值。几乎所有的商业数据 挖掘中,都要遇到缺失值的问
显示全部
相似文档