探索商业银行在大数据挖掘技术领域的应用.pdf
探索商业银行在大数据挖掘技术领域的应用
摘要:由于大数据的快速发展,传统的以业务经验模式进行的数
据库营销面临极大挑战。针对这种情况,提出基于大数据的数据挖掘
技术方法。首先了解业务需求,根据业务目标设计模型,接着进行数
据整合、数据清洗等,然后建立模型、对模型结果进行评估。实验结
果表明,应用大数据挖掘技术能有效的提高精准营销的成功率、进行
风险防控以及运营优化管理。
引言
随着大数据时代的到来,商业银行数据资产的价值也愈发显得更
加重要,为此,探索数据的应用场景和商业模式,建立技术平台,推
动商业银行从传统数据库营销到数据化运营,最终到运营数据的转变,成
为各家商业银行重点工作。笔者所在的银行依托分行大数据平台,致
力于大数据+人工智能+数据挖掘的探索与研究,从2014年就启动了
数据挖掘的相关工作,开发了卡分期模型、信用卡疑似套现评分模型、
信用卡客户流失预警模型、信用卡逾期预警模型、网点选址优化模型、
大额存单交叉营销模型、中高端客户流失预警模型等。下面就精准营
销、风险预警、运营优化三个主要应用场景介绍近三年运用大数据挖
掘技术建模实践的成效。
1精准营销
我行基于大数据平台丰富的数据来源及高效的分布式计算技术,
通过逻辑回归、决策树、神经网络、支持向量机等机器学习算法,结
合业务目标进行分析挖掘、构建模型、制定精准营销方案与策略。下
面以大额存单交叉销售模型和信用卡账单分期模型为例简要介绍建模
方法及收效。
1.1大额存单交叉销售模型
个人大额存单产品自推广以来,维持了较高的存款贡献与客户层
级上升贡献,是分行应对同业竞争、拓展存款和客户的技术手段和措
施。为更好地推动大额存单客户群的维护与拓展,争揽客户行外资金,
亟需通过该交叉销售模型找出高响应的客户进行大额存单精准营销活
动。
1.1.1建模样本及目标变量定义
建模样本定义为资产5万-100万的客户,模型的目标变量定义为
首次购买大额存单的客户。时间窗口定义:观察期,6个月;表现期,
3个月,经统计分析,样本的目标变量过少,为此,我们将两个观察期
和表现期的数据分布叠加起来,重新整合样本后进行建模。
1.1.2数据预处理
源数据来自客户基础属性、客户持有产品、客户交易行为、客户
基础属性变化、客户持有产品变化、贷款信息、代发薪信息、跨行转
账信息等数据。数据预处理主要包括变量衍生、异常值检验及处理、
缺失值检验及处理三个部分组成。
变量衍生:指根据业务的一些经验值和数据分析结果,主要针对
客户交易行为衍生了分渠道、分产品每月的交易金额最大值、均值、
最小值及每个产品和渠道对应的交易趋势等变量。
异常值检验及处理:异常值是指一个变量的值非常极端或者出现
频率非常低。对于一般的数值型变量根据盖帽原则,将最大值cap值
P99分位数;有业务实际意义的,根据业务逻辑来处理。对应字符型
变量通过查看其分布来检验,并根据业务逻辑来处理异常值。
缺失值检验及处理:对缺失值处理同样要分数值型和字符型两部
分,对应数值型变量缺失值的填充方法有总体均值填充、类均值填充、
回归预测填充等,本次模型主要采用总体均值填充的方法和业务实际
来填充。对字符型变量的缺失值我们用N来填充。
1.1.3分析建模
变量首次筛选:由于源变量较多,首次筛选去掉那些对目标变量
影响不大的变量将会减少后续工作量。结合变量的IV值和单个变量进
入逻辑回归模型的结果,筛选出相对重要的变量。
变量分组:由于LOGISTIC回归只能对数值型变量进行建模,对字
符型变量需要预处理或分组衍生出哑变量,同样的对数值型变量也做
了分组处理。我们在目标变量的监督下,对变量进行分组处理。并将
分组结果转换为变量对应的woe值。
变量二次筛选:对转换为woe值后的变量做共线性诊断,剔除相
关性较强的变量。
模型开发:首先将建模样本分为训练集和验证集,采用逐步回归
的方法进行LOGISTIC回归的开发。基于此模型结果我们可以预测出资
产5-100万的客户首次购买大额存单的可能性的大小。根据模型的评
分结果,给定营销组A、B和对照组C、D,其中A和C是