文档详情

数据挖掘项目中期报告.ppt

发布:2017-06-20约2.04千字共24页下载文档
文本预览下载声明
数据挖掘项目中期报告 第六小组 问题的提出 家电零售业的激烈竞争 上海市场三足鼎立:国美、永乐、苏宁,三大连锁集团占据绝大多数市场份额。 其余企业如一百、华联。由于自身原因,难以进一步扩展规模。 三大连锁集团都在积极增加门店数量、加大广告投入。多年的激烈竞争,才达到今天的市场地位。 家电销售早已进入微利时代 激烈的竞争,导致家电零售企业都把市场占有率,作为首要考虑的问题,甚至优于盈利。因此,价格战成为最主要的手段,无利润,甚至亏本销售现象普遍存在。家电零售业通过扩大销售,以此来要求生产厂家提供更低的供货价格。 市场信息对家电零售业的意义 家电零售企业都采用了计算机管理进、销、存数据,因面对的是家电产品的最终消费者。因此,在海量的销售记录中,存在大量有价值的信息。若能提取这些信息,提供给管理部门作为决策时的依据,有助于提高管理部门决策的准确性。 目标的确定 数据资源的选取 本次项目,选用国美电器某门店的进销存系统数据作为分析对象。 该系统使用SQL Server作为数据库平台,包括财务、商品信息、销售记录等大量数据。 目标的确定 系统初步分析 数据库系统包含21个表。 商品分类信息存储在Item和ItemList两个表中。 商品销售信息存储在Out和OutDetail两个表中 下图为数据库关系图(部分): 目标的确定 作简单查询,该系统定义350种大类,共10539种家电商品信息,其中1713种为经销或代销的彩色电视机品种。是最多品种的分类,也考虑到彩色电视机在家电中占有最大比重,我们本次项目将其定为研究的对象。 系统记录的是从2001年3月15日到2002年4月27日的销售记录。 目标的确定 我们从系统中提取有关彩色电视机的商品品牌、规格、销售价格、销售数量、毛利等相关数据进行分析。 应用Microsoft SQL Server 2000 Enterprise 的Analysis Server OLAP/Data Mining作为分析和挖掘工具。 采用的数据挖掘的理论:聚类、决策树. 目标的确定 最终目标 找出彩电销售中与产品品牌、规格、价格区间等有关的趋势和规律。 按品牌、规格等指标,分析各彩电产品的盈利能力. 项目实施阶段 数据清理 多维数据集建立 决策树处理 处理结果分析 结论 数据清理 对系统原有信息的分析 原系统对商品分类采用两级分类的方式: 数据清理 其中,FName列存储商品大类信息,FSpecification存储商品品牌和型号信息。结构不大合理。 为便于数据挖掘,将商品相关信息合理存储,采用细化分类的思想,针对本次分析的商品为彩电,将其改为4级分类,依次为: *销售类别(经销和代销两种) *幕尺寸 *品牌 *型号 数据清理 为此,在Itemlist表中加入两列:Brand和Size,存储彩电品牌和屏幕尺寸信息。新列数据从FSpecification列中提取: 数据清理 数据的清理 新建一个TV_Item表,只存储与彩电有关的商品信息: 数据清理 从Itemlist表中导出与彩电相关数据项到TV_Item表中: 数据清理 销售记录的清理 建一TV_Sales表,用于存储相关彩电的销售信息,表中只保留本次项目用到的信息: 数据清理 根据TV_Item表中存在的彩电编码列,将OutDetail表中与彩电相关条目倒入TV _Sales表: 数据清理 其余清理工作 商品编码的规范 无销售记录彩电条目的清除 数据清理 结果 将相关数据集中在仅两个表中,大大减少数据量,有利于下一阶段工作。 规范了信息存储形式,为进一步挖掘打好基础。 多维数据集建立 利用SQL Server企业版所带的Analysis Manager 工具建立多维数据集 事实数据表:TV_Sales 度量值: FQuanty(销售数量) FProfit (毛利) 多维数据集建立 维度的建立 *时间维度:
显示全部
相似文档