文档详情

中文問句与RDF三元组映射方法研究.doc

发布:2017-03-23约8.73千字共7页下载文档
文本预览下载声明
中文问句与RDF三元组映射方法研究* 许德山1,2 张智雄1 赵妍3 (1中国科学院国家科学图书馆,北京 100190) (2中国科学院研究生院,北京 100049) (3郑州航空工业管理学院计算机科学与应用系,郑州 450015) [摘要]主要探索中文问句与RDF三元组的转换方法。文章首先对中文问句的特点进行了分析,然后结合RDF(S)模型的优势,探索了RDF三元组与问句语义的对应关系,进而提出了直接映射和间接映射两种映射方式。该方法只需做浅层的句法分析,将获取的限定成分映射为三元组内部的语义标签,从而降低了句法分析和三元组组配的难度。最后分析了映射方法中存在的问题并提出未来工作的重点。 [关键词] 问题分类; RDF模型映射; 三元组映射 [分类号] TP391 A Research on Chinese Interrogative Sentences and RDF Triples Mapping Methods Deshan Xu1,2 Zhixiong Zhang1 Yan Zhao3 (1 The National Science Library, Chinese Academy of Sciences, Beijing 100190) (2 Graduate University of Chinese Academy of Sciences, Beijing 100049) (3 Department of computer Science and Application, Zhenzhou College of Aeronautical Industry Management, Zhengzhou 450015) [Abstract] This paper introduces two mapping methods between Chinese interrogative sentences and RDF triples. We firstly analyze the characteristics of the Chinese questions and discuss the relationship between the RDF triples and the questions according to the advantages of RDF (S) model. Furthermore, we proposed two mapping methods-direct and indirect. Only shallow parsing needs to be done during processing, and then the restrictive chunks are mapped into semantic labels inside triple, so the methods make the syntactic parsing and the triples assembling easer. Finally, we analyze the open issue in the methods and show our expectation in the future. [Keyword] Question Classification; RDF Model Mapping; Triple Mapping 引言 国际万维网联盟(W3C)也推出了面向语义检索的标准查询语言SPARQL,用来完成对RDF本体的各种检索。但SPARQL的使用并不简单,需要了解本体知识库的组织方式,并学会用SPARQL的语法来表达自己的查询意图,这就为普通用户带来了不便。为此本文试图探索一种映射方法:用户只需用自然语言来表达自己的查询意图,系统自动完成问题到SPARQL的转换和概念推理,然后返回查询结果。 1中文问句的特征分析 本文的研究主要针对由关键成分(主、谓、宾等)和修饰成分(定、状、补等)构成的标准问句进行分析,这类问句结构完整,意思表达明确,容易进行形式化处理。具体来看主要存在下列特征。 ①句子短小,主旨明确。通常根据问句的疑问特点将其分为是非问句,选择问句,特指问句[1]。其中特指问句使用的比例最大,也最有实际意义。特指问句的特点是对特定的疑问对象进行发问,以获取与此对象相关的信息,涉及的答案往往是与人、地点、时间、数量、事情、机构等命名实体有关的事实、列举、定义等问题。 ②具有特定的疑问词。疑问词对所问内容的类型及其范围具有很强的限定作用。如 “哪儿”、“哪里”、“何处”等往往询问地点或方位,“谁”、“何人”、“哪个人”等询问特定的某个人。另外有一些特定的
显示全部
相似文档