文档详情

基于UIMA的企业知识管理系统研究-计算机软件与理论专业论文.docx

发布:2018-12-17约8.14万字共91页下载文档
文本预览下载声明
A Dissertation Submitted to Shanghai Jiao Tong University for Master Degree RESEARCH OF ENTERPRISE KNOWLEDGE MANAGEMENT SYSTEM BASED ON UIMA Author: Zhipeng Zou Specialty: Computer Software and Theory Advisor : Prof. Ruonan Rao School of Software Shanghai Jiao Tong University Shanghai, P.R.China March, 2010 基于 UIMA 的企业知识管理系统研究 摘 要 作为信息管理的进一步发展,知识管理对于提升企业竞争力具有重要 意义。企业中存在的非结构化信息是重要的知识源,具有数据量大、增长 速度快等特点。如何获取、管理并应用海量的非结构化信息中所蕴含的知 识,是企业信息管理中一个亟待解决的问题。非结构化信息管理架构 (Unstructured Information Management Architecture,UIMA)虽然可以整合 多种非结构化信息管理技术对非结构化信息中的关键信息进行标注,但标 注结果以实体为主,缺乏实体之间的关系,且与应用程序高度耦合,难以 重用和共享。 针对上述问题,本文在对 UIMA 规范和 OWL 标准进行剖析的基础上, 提出了一种基于 UIMA 的知识获取方法 KAMU。该方法首先对 UIMA 规范 定义的基本类型系统进行扩展,然后对 UIMA 类型系统与 OWL 中的类和 属性建立映射关系。实体标注被转换为 OWL 中的个体,而关系标注被转换 为 OWL 中的三元组。KAMU 中提出了一种基于领域本体的关系抽取算法, 该算法根据本体中定义的关系模型来抽取实体间的关系。KAMU 还支持通 过一致性验证来发现并剔除知识获取过程中所存在的语义冲突,支持通过 推理来发现隐含的知识。 以 KAMU 为基础,本文提出一种基于 UIMA 的知识管理系统方案,并 设计与实现了一个原型系统。该系统包括非结构化知识源管理模块、基于 UIMA 的知识获取与推理模块、OWL 知识库管理模块。非结构化知识源管 理模块使用元数据来对异构、分布的知识源进行统一管理;基于 UIMA 的 知识获取与推理模块可从非结构化知识源中获取知识并以 OWL 表示,该模 块还提供了推理工具,支持对本体进行一致性验证和隐含知识获取;OWL 知识库管理模块提供对 OWL 本体进行版本管理、分组管理、分布式编辑等 功能。在具体场景中的应用表明该系统是可行及有效的。 与传统的知识管理系统相比,本文具有以下特点: (1) 提出了一种基于 UIMA 的知识获取方法 KAMU。该方法通过从 UIMA 的基本类型系统扩展而来的知识级类型系统 KLTS,可将利用 UIMA 对企业海量非结构化信息进行处理的标注结果转换为以 OWL 表示的知识, 具有较好的可扩展性、灵活性和适应性; (2) 在 KAMU 的基础上,设计并实现了一个企业知识管理系统 EKMS。 该系统将基于 UIMA 的信息抽取与基于 OWL 的知识库管理有机结合,可 实现对企业内分布、异构、海量的非结构化信息源进行统一管理、分析和 知识获取,并支持分布式的本体构建和编辑。 关键词 非结构化信息,知识管理,UIMA,信息抽取,知识获取 RESEARCH OF ENTERPRISE KNOWLEDGE MANAGEMENT SYSTEM BASED ON UIMA ABSTRACT As an evolution of information management, knowledge management is of great significance to promote the competitiveness of enterprises. Unstructured information, which is huge and grows rapidly, is the vital source of knowledge in enterprises. How to acquire, manage and use knowledge contained in the mass unstructured information is thereby an urgent problem to be solved. Although Unstructured Information Management Architecture (UIMA) can integrate a variety of
显示全部
相似文档