金融大数据中心建设规划.docx
文本预览下载声明
金融大数据中心建设规划目录1、数据中心数据现状31.1 数据中心核心信息数据情况31.2 数据中心与外部系统信息交互情况41.3数据中心目前的数据存储情况42、数据中心系统现状52.1 系统架构52.2 功能描述52.3面临的问题63、项目建设目标63.1 业务目标63.1.1.建立数据模型分析平台,开展持卡人交易行为分析63.1.2.建立基于大数据平台的海量数据统计平台73.1.3.能满足对海量历史数据进行快速查询的要求73.2 技术目标71、数据中心数据现状1.1 数据中心核心信息数据情况数据中心对外展示功能主要基于业务数据查询平台,其主要功能包括:关键指标展示、多维分析、专题明细查询、常用数据浏览、静态报表下载以及部分业务参数管理和维护。数据中心保存的数据主要包含三大类:交易流水类数据、商户档案类数据和汇总统计类数据,均为结构化数据。1.2 数据中心与外部系统信息交互情况1.3数据中心目前的数据存储情况数据中心目前数据量情况为全库18T,其中流水类数据为10T包括综合流水(90亿条记录),新一代增值流水(FJNL),清分流水。每日增量流水约1200万条记录。商户信息数据按天保存,商户数约为300万,终端数约为480万。每天数据量约为10G。2、数据中心系统现状2.1 系统架构2.2 功能描述新一代流水、清分流水、结算流水和BMS商户数据分别以文本和oracle dmp格式通过ftp方式传输到数据中心服务器上,每天定时由批处理服务器通过批量框架(C++)调用批量过程按分支机构并发地将文件或DMP包导入数据库中。并通过调用存储过程完成数据的清洗、关联、数据补齐工作。批量过程完成元数据加工工作后,按各种业务维度按天、按月汇总交易数交易金额和收益等数据并生成关键指标数据。目前数据中有各种维度的汇总统计表80余张。完成汇总后,批量框架服务会根据关键指标数据生成cognos cube,并刷新cognos服务;同时报表生成程序会根据中间汇总表生成预定的报表文件。终端用户以web访问方式通过查询平台可以查询定制的报表或者通过cognos组件以仪表盘方式查询各动态报表。用户亦可通过拖拉拽方式自由组合维度和度量生成报表表格,通过cube可以实现数据的多维分析和动态钻取。2.3面临的问题1. 单库查询方式的数据存储容量有限,很难做到数据的长期保存和查询。2.新增中间统计汇总需求或者中间统计汇总口径发生变化时,对存量数据的重新汇总需要耗费很漫长的时间。3.无法满足海量历史数据随机查询的需求。4.数据备份困难,超大容量数据库在备份和恢复方面存在很大困难,成本极高。5. 数据分析处理能力有限,仅能按日进行数据统计,无法进行海量数据抽取运算。3、项目建设目标3.1 业务目标 大数据建设工作主要包括:3.1.1.建立数据模型分析平台,开展持卡人交易行为分析持卡人交易行为分析是已交易流水中的卡号为对象,根据持卡人历史消费情况进行数据拟合,根据一笔实际消费信息快速计算出该持卡人下一笔可能的消费目的,为精准营销提供支持。持卡人行为分析除了分析模型建立外,还包含了商圈的识别,目前我们已对部分商户地址进行了坐标化(百度坐标)。该行为分析的时限要求是1秒内且在1000TPS的情况下延时不超过5秒。3.1.2.建立基于大数据平台的海量数据统计平台海量历史数据统计要求是非实时的,是针对一定统计口径进行汇总的批处理要求。例如一定统计口径下针对90亿条流水按天生成汇总的中间结果,速度要求是小时级。3.1.3.能满足对海量历史数据进行快速查询的要求海量历史数据快速查询要求对海量历史流水按一定条件进行快速查询,需实现分页技术。此需求要求搜索的数据量大,响应速度快,要求能在分钟级内从大数据平台返回数据集给前端应用。3.2 技术目标1.具备强大计算处理能力和存储能力。2.采用X86框架服务器,无需采购高端机器(小型机),节省硬件投入。3.尽可能保持现有基于SQL92标准的使用习惯,也不排除对应用进行适当修改以适应新的数据库层架构。4.提供使用灵活方便的数据接口,供各类业务系统对数据进行快速查询。5.节点扩展快捷,不影响现有节点工作。7
显示全部