统计数据库建设与应用.doc
文本预览下载声明
统计数据库建设与应用
上个世纪末,国内在数据库领域,尤其是统计数据库领域进行了很大的投入,但回过头看,尤其是统计数据方面成效不大,留存下来的数据库也没有多少,许多数据库是后来建立起来的。那么为何许多数据库最终夭折,而一些数据库能够幸存下来,其根本原因是技术与市场导向。
国家信息中心中经网公司的统计数据服务最初是以网页形式提供给用户,后台基本按照数据库的架构进行建设。从数据库建设过程看,服务使用者是最大导向,尤其是一些数据库建设者本身就是数据使用者,因此在数据库架构方面,一开始就既要有利于更新,也要有利于使用者方便。总体看,技术上的功能模块构造、内容上的板块切割、准确的市场定位,以及用户导向和增值服务的努力都使得数据库能够在国内统计数据库市场占有一席之地。
一、主要模块功能
中经网核心产品《中经网统计数据库》包括五大模块:数据维护加载平台、用户管理系统、同步更新系统、模板导出系统和查询系统。
(1)数据维护加载平台
该平台主要完成对数据的加载功能以及对数据库中内容的增删改功能,主要包括:对主词、分组、地区、指标、解释等的批量(单笔)增、删、改; 对时间序列数据的单位、注释、来源等的批量(单笔)增、删、改;数据库的备份、恢复;对原始数据的批量(单笔)增、删、改。
(2)用户管理系统
《中国经济统计数据库》在中经网公司的服务器中存储的是所有加工整理的海量统计数据与信息,涉及分地区、分行业以及各个经济专题的月度、季度和年度数据,这些数据按多叉树型结构构成一棵基本指标“树”。应用用户管理系统可以在这棵基本指标“树”的基础上,对用户提供最适用的产品,满足用户多样化的需求。
(3)数据同步更新系统
同步系统包括在数据同步服务器上的数据打包系统,以及在用户服务器上的数据同步接受系统。
(3)模板导出系统
模板是指格式各异的各种EXCEL表格,它只包含表头信息和指标编码信息,模板中无数据,系统根据模板的定义,自动将数据导出,生成需要的各种格式的EXCEL数据文件。目的是为了将数据库中的数据按特定格式批量导出,即导入数据的反过程。它可以自定义表格的内容、显示方式。导出时可以任意选定时间段。
(5)数据查询子系统
统计数据库提供C/S和B/S两种查询方式,C/S结构方式的客户端软件基于Windows系列操作系统,使用之前需要在客户端进行软件安装并进行简单的配置。软件的安装过程遵循微软公司标准的软件安装过程,整个过程只需要简单的设置和选择即可完成,非计算机专业人员可以迅速掌握。
二、技术与资源管理创新
(一)、内容组织创新
《中经网统计数据库》存储的内容是国家和省(自治区、直辖市)统计局的各类经济统计数据,其内容是不断变化的。一方面,随着我国经济体制的变化,反映经济现象的经济统计指标也在不断的变化;另一方面,经济研究人员关注的重点热点经济问题不断翻新,研究重点也从宏观已经深入到行业和企业等微观领域,无论从深度还是广度,对系统提供的指标量要求成倍增加。从内容组织上,保证系统的可扩展性成了数据库建设的核心所在。所以从总体上按指标属性建设不同子库。
1、人工编码技术
指标编码是系统对统计指标身份认证与识别的唯一标志。在本系统中,对指标的标注前移,将指标拆分为主词与分组的组合,主词是指标的核心内容,分组是指标的修饰内容,一个指标只能包含一个主词,但可包含多个分组属性,即主词加0-N个分组属性确定一个指标属性,例如,GDP是一个主词,第一产业是一个分组,GDP即可单独构成指标,也可被第一产业分组修饰形成一个新的指标——第一产业增加值。这样,对任何指标的标注工作,被分解成两部分:第一部分,理解指标的统计含义和口径,确定主词和分组;第二部分,对主词和分组分别进行标注,合成指标编码。这极大地减轻了人工标注编码的难度,使系统的维护更新更加方便。
2、规范化处理流程
由于原始资料包括纸介质、电子表格、库文件、TXT文件等多种格式,需要将他们加工成标准的EXCEL表格,然后再进行人工编码标注。
3、按指标属性科学分类
宏观月度库-反映宏观经济整体运行态势的月(季)度统计数据信息库;涵盖国民经济核算、财政、金融、贸易、投资、房地产、工业交通、物价工资共14个专题2千多项指标内容;自1990年至今的70多万条数据;近15年180多个时点数据的任意检索查询;近300项重点指标注解
工业行业月度库-定位于行业经济的专业性月度统计数据信息库。41个工业大类、近200个中类行业运行发展情况,近50项主要财务及经济效益指标。
海关月度库-反映中国对外经济贸易状况的月度统计数据信息库。自1995年以来的700多万条数据,涵盖分商品、分贸易方式、分国家、分地区等方面的3万多个指标
分省月度库-
显示全部