【非结构化数据平台】大型集团企业非结构化数据平台建设方案WORD.docx
大型集团企业非结构化数据平台建设方案
TOC\o1-3\h\z\u1. 非结构化数据平台建设目标 1
2. 非结构化数据平台架构设计 1
2.1. 内容采集 2
2.2. 内容管理 3
2.3. 知识管理 5
2.4. 内容安全 7
3. 非结构化数据平台方案设计 8
3.1. 建设方式分析及建议 8
3.2. 部署方案 11
3.3. 业务应用及BPM调用方案 15
3.4. 内容采集方案 17
3.5. 数据存储方案 18
非结构化数据平台建设目标
统一存储管理电子单据、财务凭证、原始凭证等非结构化数据的全生命周期管理,提供集团知识统一管理,支撑XX集团财务集中管控平台业务开展。
非结构化数据平台架构设计
内容管理是基于大容量存储设备,支撑XX集团非结构化数据的统一存储及管理,基于ECM建设实践及XX集团非结构化数据管理需求。ECM管理范围包括:
文档管理,支持各类电子文档、电子凭证、电子报表和具有法律效应的文件等的管理;
多媒体管理,支持各类支持多媒体信息的管理,包括:声音、视频、流媒体等;
影像管理,支持各类影像数据管理;
ECM功能架构如下图。
内容采集
通过建立统一的内容接入标准和规范,为XX集团的应用系统提供统一的非结构化数据采集的快速访问通道:
支持的文档内容类型可以是扫描仪、传真机、电子邮件附件、图片、电子表单、PDF等;
支持多语言自动OCR字符识别,可以将图片或者PDF文件中的字母、数字、符号等抽取作为属性元数据,结合元数据定义同步至内容服务器中,从而形成文件从纸张到电子化文档管理的完全自动化处理;
支持大批量扫描及自动识别功能;
图像增强、修改索引、工作流功能。
内容管理
ECM提供对内容统一管理,功能包括。
文件存储和元数据存储
内容属性(元数据)存储在关系数据库以便快速查询和检索;
内容(影像)以文件形式存储在文件存储区;
文件存储区可以是文件系统,基于文件系统的存储区可以托管在不同类型的存储环境;
内容支持:一般文件、网站内容、XML、多媒体、email等,且可扩展文件类型与文件格式;
内容库管理
内容签入,签出功能;
内容版本管理:支持授权用户对指定文件进行升版并填写升版相关的元数据,新版本文件发布前,该文件的有效版本仍是升版前的版本。在对文件进行升版后,系统自动将当前版本电子文件设置到新版本中。而各个版本信息的可追溯;支持自定义版次规则;防止跳版本和重复版本;同一文档可以保留全部版本,也可以选择仅保存每个文档的最新版本;
内容检索,支持与第三方检索引擎结合,支持自动索引更新服务,并且支持增量更新的方式进行更新,确保索引的性能明显优于采用全量更新的方式;支持检索类型:文档、文本文件、XML组件、HTML;
编码管理:支持自定义文件编码规则,申请编码和自动生成编码,保证编码的唯一性(消除重复,空号检查)和连续性,也支持多套编码方式同时存在;
元数据管理:文档系统能灵活地管理收录进入系统的文档及档案的属性元数据,并作为分类、搜索的依据,例如:根据某特定元数据属性自动归档到特定分类;另外搜索过程也可通过透过元数据精确定位某类文档;用户可以实现的功能包括:创建、定义、删除、修改、复制、继承元数据,元数据属性数量不限;
文档体系管理:支持自定义文件分类及其关联属性。并建立以用户自定义层次结构的文档分类配置管理控制模板,具备让组织内的人员按授权进行新文件生成或已有文件升版并录入相关元数据的功能;
文件批量导出功能:提供通用的文档导入、导出工具。
知识管理
内容管理是知识管理的基础,需要配备相应的知识组织及流程,对知识进行系统化管理,知识管理功能包括:
知识中心:
知识中心是非结构化信息的存储管理中心。非结构化信息包括各种格式的文档、各种格式的媒体文件、各种特殊格式的文件、离散数据、一次性数据等。
知识流程管理
知识管理流程分为知识管理申请、评估流程、知识管理权限申请流程、知识管理考核流程和知识管理归档流程。
知识目录管理
知识中心可被划分为多个逻辑区域,如集团知识中心、公司知识中心、各部门的知识中心和个人知识中心等。
知识处理
非结构化信息需要通过一定的结构化处理后才能进行知识中心。非结构化信息的结构化处理包括:
根据特定的格式定义非结构化信息的摘要
填写特定的非结构化信息的扩展属性
根据特定的要求定义非结构化信息的关键词
知识访问与发布
访问安全控制
多重发布渠道,支持企业邮件、应用系统、手持设备等
知识统计、分析和审计
知识地图
知识的多维度导航
知识地图的一个重要特征是知识的多维度导航;知识管理支持从从不同的纬度索引导航到相应的内容,常见的非结构化信息的纬度包括组织纬度、业务纬度和项目纬度。
知识管理的统一搜索