文档详情

File2db配置文件开发手册.doc

发布:2018-01-23约5.25万字共52页下载文档
文本预览下载声明
File2db配置文件开发手册 宏智科技网管产品事业部 2002年4月 目 录 1 概要介绍 3 1.1 读者需要具备的基础 3 1.2 参考文档 3 1.3 背景 3 1.3.1 为什么有file2db工具 3 1.3.2 为什么可以有file2db工具 5 1.4 入门 6 1.4.1 数据源 6 1.4.2 数据目的地 6 1.4.3 数据抽取过程 7 1.4.4 数据抽取结果 9 2 File2db开发 9 2.1 开发步骤说明 9 2.2 文件结构分析 10 2.2.1 文件头filehead 10 2.2.2 报告 REPORT HEAD +BODY+ TAIL 14 2.2.3 子报告块SUBBLOCK 14 2.3 数据抽取定义 14 2.3.1 设定变量 15 2.3.2 创建原始表 15 2.4 编写file2db配置文件 16 2.4.1 File2db_Config 17 2.4.2 Head 17 2.4.3 Target_Database 17 2.4.4 globalvariable 18 2.4.5 Var 18 2.4.6 预定义变量 19 2.4.7 filehead(可选) 19 2.4.8 filesplit (可选) 19 2.4.9 block 报告块匹配定义 20 2.4.10 line匹配表达式 21 2.4.11 Filename 22 2.4.12 预处理 22 2.4.13 Measurement 22 2.4.14 Tablename 23 2.4.15 sourcevar 23 2.4.16 Target_action 23 2.4.17 mapping 23 2.4.18 Target_stat 24 2.4.19 Sourcereport 24 2.4.20 Body 25 2.4.21 block扫描顺序 25 2.5 转换函数和厂商模块 29 2.5.1 转换函数 29 2.5.2 厂商模块 31 2.6 运行和调试方法 32 2.6.1 运行环境 32 2.6.2 目录结构 32 2.6.3 命令行参数 33 2.6.4 调试方法 34 3 深入file2db开发 41 3.1 变量定义 41 3.2 format定义 42 3.3 block定义 42 3.4 高级block属性应用 43 3.4.1 multiple 43 3.4.2 parallel 44 3.4.3 join 47 3.4.4 sum 48 3.4.5 reset 48 4 局限和不足 50 概要介绍 说明:本文主要介绍v2版的配置文件编写。V1版和V2版的区别参见 读者需要具备的基础 正则表达式 网管系统有关omc_id/ task_id的定义和使用 xml perl基本编程 参考文档 1)《原始表设计原理和规则_v1.0》 背景 为什么有file2db工具 在采集系统面对的数据源中,除了数据库外,数据文件以及由人机命令得到的结果文件是一个主要部分。我们在网管系统中面对的是10多家厂商的多种设备,每种设备的数据又分为配置、性能、告警,每类数据又分为多种报告格式,每种报告格式在不同版本下可能是不一样的。毫不夸张地说,我们网管系统处理的各式各样的报告不下100种。 这样,如果我们需要分析这些报告,传统的做法是对每个报告编写一段代码,这样造成了极低的效率,第一要求开发人员具有较高的开发水平,第二开发人员不能专注于文件的数据抽取,而需要兼顾程序编写的代码质量风格;第三,每段代码都有其重复之处,例如读取文件、拆分、匹配、数据变换、数据入库、出错处理、写trace等;大量的重复代码一方面不能保证统一的质量水准,一方面造成了维护、升级、交接的困难,也造成了开发周期的延长。而实际上,厂商数据格式随着版本变化而变化,用户抽取数据的需求也随着使用变化而变化,就要求我们对新的数据抽取需求能够快速反应。因此,就需要有这样一个工具,实现数据文件抽取的快速开发。 为了从这些异构的原始数据文件中抽取到所需的配置、性能、告警数据并存入数据库中的原始表,同时避免分厂商开发带来的代码重用,摆脱大量繁琐的程序开发,我们设计了数据采集工具file2db。 作为一个通用的工具,它提取出数据文件处理的共性,而通过与不同厂商相对应的配置文件和厂商模块来描述个性,即不同数据文件的具体结构及数据的具体处理。两者的结合,即完成了从数据文件到原始表的处理过程。这个过程可以说就是一个按规则抽取数据并归一化到关系数据库数据表中。 图-1 FILE2DB原理图 为什么可以有file2db工具 我们处理的文件报告都是ASCII格式,有其共同之处。因为这些文件都是反映网管对象某一方面的属性,因此其格式有章可循。每个文件通常都是由一
显示全部
相似文档