文档详情

专家研究领域自动识别研究..doc

发布:2017-01-18约7.63千字共7页下载文档
文本预览下载声明
专家研究领域自动识别研究 [摘要] 专家检索与专长识别是近年来信息检索领域的一个研究热点。本文借鉴文本自动分类思想,基于文档权重归并法,采用N元语言模型,设计了一个专家领域识别实验系统;并以“武汉大学”为例对专家研究领域自动识别的效果进行了初步评测。实验结果表明该系统对专家研究领域的自动识别具有很高的查准率。 [关键词] 专家研究领域识别 专家检索 文本分类 [分类号] TP393 The Study of Expert Research Field Automatic Recognition (Center for Studies of Information Resources, Wuhan University, Wuhan 430072) [Abstract] Expert Retrieval and Expertise Recognition is the current hot research area in information retrieval. Based on document–weight combining method, this paper uses N-gram language model and designs an Expert Research Field Recognition System. Taking Wuhan University as a preliminary evaluation example, we found that the system is highly effective in the Expert Research Field Recognition. [Keywords] Expert Research Field Recognition, Expert Search, Text Classification 1 引言 对于知识创新单枪匹马的时代己经让位于团队合作的时代。越来越多的变革创新现实探求众人的力量知道自己研究领域有哪些专家,了解专家有哪些专长站在“巨人”的肩膀上,必要。所谓专家检索,是指利用组织内外能够表征专家专长的各种文档和资源,识别专家在某给定查询主题(领域)的专长(相关性)程度,并按程度高低排序显示专家结果列表的过程Net Expert等专长识别系统。Sanghee Kim的EMNLP系统主要以用户之间互相发送的Email为研究对象[3],应用自然语言处理技术对信息中的每个句子进行句法分析和标注,从有第一人称的句子中识别用户的专长。该系统使用Word Net,给每个动词赋予一个权重值,依据识别出的核心动词的权重,定义用户的专长级别,进而可以完成专长识别。Ramon的Net Expert[4]系统从共同合作发表文章库中选择用户评价比较高的文章,然后对文章进行特征提取,再用空间向量模型表示,最后,对这些术语采用TF/IDF方法进行计算,取权重较高的词作为专家的专长。 国内专家专长识别也取得一定的成果。杨彩鸽针对国内各大高校及科研管理部门对学术专家的推荐、管理和检索, 提出了一种基于Web的专家管理系统[5]。将专家的各种信息建成一个专家数据库,专家自己填写个人信息,如姓名、专长、联系方式等构成一个专家档案,并且由专家实时地上网更新自己的信息。该系统中提供的“专业成就”、“科技开发领域”、“获奖情况”等项可以从侧面反映专长程度。王霞仙[6]做了高校专家专长档案构建的这方面研究,该文分析了高校专家专长的体现方式,将专家发表的学术论文作为主要的专长证据,通过对专长证据的分析抽取出专家的专长,计算出专家专长的权重,对专长进行排序,并且用基于概念的方式表示专长档案。 3.1 研究方法 文献[7][8]采用文档权重归并法实现了对组织专家的检索,取得了显著的效果。本文也利用这种思想,识别高校专家研究领域。本文中该方法的主要工作流程如图1所示:首先是专家研究领域(也就是学科领域)特征描述信息抽取,而学科领域的特征信息主要包含于该学科下的核心期刊中,因此笔者认为,从这些核心期刊中抽取的信息能够表示该学科的领域特征,比如核心期刊论文的关键词,只需再对其进行筛选,构成领域集;然后,对高校专家所发表的每篇论文利用语言模型,参照领域集进行索引,并对每篇文章赋予相应的权重,使得每篇文章都有明确的领域归属,最终,生成文档-领域索引文件;最后,对每位专家所发表的期刊论文,查询索引文件,按照所属领域权重进行归并,获得该专家的研究领域范畴,进而按照领域得分高低排序,返回相关领域列表。 图1 文档权重归并法工作流程 3.2 N元语言模型 统计语言模型[9]实质就是词序列概率模型。设是文本中的任意一个词,如果已知它在该文本中的前两个词,便可以用条
显示全部
相似文档