数据仓库信用卡消费记录.pdf
深圳大学研究生课程论文
题目基于信用卡及其消费记录的数据挖掘成绩
专业计算机科学与技术课程名称、代码数据仓库
一、摘要
随着国民经济的快速发展,互联网技术和信息技术日益成熟。在信息化过程中,
居民消费方式也逐渐由传统的现金交易转变为银行卡或网银等快捷交易,这使得信
用卡作为一种快捷便利的消费方式应用而生,并且得到越来越广泛的使用。信用卡
是一种非现金交易付款的交易方式,是简单的信贷服务。由信用卡公司依据用户的
信用度与财力发给持卡人,持卡人使用信用卡消费时无需支付现金,待结账日再行
还款。影响信用卡消费金额的因素很多,并且多种因素相互交叉,对信用卡消费金
额产生影响。
随着信用卡用卡环境的不断改善,以及各商业银行服务的改进,人们越来越多
地接受并习惯于使用信用卡,各商业银行也积累了大量与使用信用卡相关的数据。
过去这些数据仅用来核对账务和打印留作凭证,数据内部包含的各种信息对银行经
营工作的作用没有得到重视,或者由于技术条件限制难以对其进行分析。近年来,
随着数据挖掘技术的发展,如何对这些数据进行有效利用,挖掘用卡消费行为中潜
在的对银行经营管理有益的信息,已引起各家银行的高度重视。银行信息的数据挖
掘也因此成为非常活跃的应用领域之一。
二、需求分析
在信用卡消费系统中,信用卡额度、信用卡消费情况都会产生大量的业务数据,
以信用卡消费记录分析为主题的数据仓库主要涉及到信用卡客户的年龄、性别、职
业、月收入、月支出以及与银行的业务关系等信息。信用卡消费数据仓库的维度主
要有5个:持卡人信息、商品信息、商店信息、消费时间、信用卡信息。根据信用
卡消费系统业务范围和决策分析的需要,设计出星型模式的信用卡消费模型。
三、数据源分析
随着市场的竞争越来越激烈,商业环境中的信息越来越密集,企业必须能够深
入灵活利用积累的大量数据挖掘潜在的规律,提高决策质量,把握和发现市场机遇,
提升企业的竞争力。
通过分析信用卡消费数据,可以了解持卡人的消费情况,如购买的商品种类、
消费金额、消费时间、消费的区域等。对商家来说,可以根据地域、时间、人群推
出不同种类的商品,以促进居民消费和实现人性化服务。对商业银行来说,在发行信
用卡时可以利用数据划分消费人群,并向这些不同的消费人群提供更好的服务和发
行不同类型和不同消费额度的信用卡。
四、多维模型设计
数据仓库数据模型是多维数据模型,这种模型主要有星型模式(StarSchema)和
雪花模式(SnowflakeSchema)。大多数数据仓库都采用星型模式来表示多维概念模型。
在维表数据量极大,需要节省存储空间、业务逻辑比较复杂、必须要体现清晰的层
次概念情况下,可以使用雪花型模式。本文采用星型模式的模型,如图1所示。
图1
数据仓库数据模型建好后,将预处理好后的数据加载到数据仓库中,然后对数据进
行分析。本文采用聚类的方法,以年龄、性别、月收入、月支出对客户进行分组,
对客户喜欢的商品类别进行神经网络训练,实现对客户层次的分类,以便更好的向
客户提供更好的商品,并获得更大的利润。
五、表格设计
多维数据模型是以多数据表型的维表和事实表结构形式组织的。本文的数据库
中包括交易事实表、时间维表、商店维表、客户维表、商品维表和信用卡维表。交
易事实表中的每条记录都有一个指向各个维表的外键和一些相应的测量数据。维表
中的记录是一些有关一维的属性。事实表中每条记录所包含的指针分别指向相应的
维表,这就构成了数据库的多维联系。具体事实表和维表如下表1-表6所示。
表1:Transaction_Fact
ColumnTypeComme