文档详情

AToT模型可视化工具开发.pdf

发布:2017-06-04约2.74万字共10页下载文档
文本预览下载声明
情报工程 ISSN 2095.915X TECHNOLOGYlNTELLlGENCEENGINEERING 第2卷 第4期 2O一29 2016年 8月 ISSN 2095-915X Vo1.2 No.4 20-29 Aug 2016 doi:lO.3772j/.issn.2095-915x.2016.04.004 AToT模型可视化工具开发 孙国超 ,徐硕 ,乔晓东 (中国科学技术信息研究所 北京 100038) 摘要:随着科研人员需要处理的文献集规模的 日益庞大,以LDA为代表的主题模型能够从语义层面 挖掘大规模文献集中隐含的主题,因此,LDA主题模型的应用越来越广泛 。LDA模型仅仅关注文献集 的内容 ,而忽略了文献其他重要的外部信息,AToT模型在 LDA主题模型的基础上引入了文献作者和 文献发表时间两个属性 ,使AToT模型不仅可以挖掘文献中隐合的信息,还可以分析文献作者 【研究 兴趣及文献主题随时间的变化。AToT模型对文献集建模的结果是以概率矩阵的形式呈现,不能直观、 全面、清晰的呈现挖掘出来的信息,特别是对数据挖掘不熟悉的科研人员,因此,本文开发了一个基 于AToT模型的可视化系统,该可视化系统清晰、美观地展现了AToT模型中文献、主题、作者、时间、 词项间的关系。如文档中的主题分布、主题的词项分布、作者的研究兴趣分布、主题的相似主题和主 题的演化趋势等。 关键词 :LDA模型,AToT模型,可视化,Django 中图分类号:G35,TP39 DevelopmentofVisualizationToolforAToTM odel SUNGuoChao,XUShuo,QIAOXiaoDong (InstituteofScientificandTechnicalInformationofChina,Beijing100038,China) Abstract:SinceLDA(LatentDirichletAllocation)topicmodelcouldmineunderlyingtopicsfromthecollection 基金项 目:本文受国家自然科学基金项 目:基于论文和专利资源的技术机会发现研究,十“二五”国家科技支撑计划项 目: 面向科技情报分析的信息服务资源开发与支撑技术研究 (2015BAH25F01)和中国工程科技知识中心建设项 目 知“识组织体系建设” (CKCEST一2016-2—10)资助。 作者简介:孙国超,硕士研究生;徐硕 (通讯作者 )(1979一)。博士,副研究员。研究方向:智能情报分析,数据挖掘和大数据等。 E-mail:xush@istic.ac.cn;乔晓东 (1965一),英国谢菲尔德大学硕士,研究员,研究方向:信息服务、信息资源管理等。E-mail: qiaox@istic.accn。 020 AToT模型可视化工具开发 oflarge—scaledocumentsinthesemanticviewpoint,ithasbeenappliedsuccessfullyinvariousfields.However, LDA modelwasonlyfocusonthecontentsofdocumentswhileignoringotherimportantexternalinformation, suchasauthorship,timestamp,etac.Inordertoovercomethisproblem,AToT(AuthorTopicoverTime)model wasproposedbycombinedanalysisoftheauthorshipsandhtepublicationtimeofdocuments,whichCna improve theAToTmodelformininghteimplicitinformationofthedocuments,andanalyzinghtereserachinterestofhte authorsnadhtevariationofhtedocmu ents.Howeve~itwas
显示全部
相似文档