AToT模型可视化工具开发.pdf
文本预览下载声明
情报工程 ISSN 2095.915X TECHNOLOGYlNTELLlGENCEENGINEERING
第2卷 第4期 2O一29 2016年 8月 ISSN 2095-915X Vo1.2 No.4 20-29 Aug 2016
doi:lO.3772j/.issn.2095-915x.2016.04.004
AToT模型可视化工具开发
孙国超 ,徐硕 ,乔晓东
(中国科学技术信息研究所 北京 100038)
摘要:随着科研人员需要处理的文献集规模的 日益庞大,以LDA为代表的主题模型能够从语义层面
挖掘大规模文献集中隐含的主题,因此,LDA主题模型的应用越来越广泛 。LDA模型仅仅关注文献集
的内容 ,而忽略了文献其他重要的外部信息,AToT模型在 LDA主题模型的基础上引入了文献作者和
文献发表时间两个属性 ,使AToT模型不仅可以挖掘文献中隐合的信息,还可以分析文献作者 【研究
兴趣及文献主题随时间的变化。AToT模型对文献集建模的结果是以概率矩阵的形式呈现,不能直观、
全面、清晰的呈现挖掘出来的信息,特别是对数据挖掘不熟悉的科研人员,因此,本文开发了一个基
于AToT模型的可视化系统,该可视化系统清晰、美观地展现了AToT模型中文献、主题、作者、时间、
词项间的关系。如文档中的主题分布、主题的词项分布、作者的研究兴趣分布、主题的相似主题和主
题的演化趋势等。
关键词 :LDA模型,AToT模型,可视化,Django
中图分类号:G35,TP39
DevelopmentofVisualizationToolforAToTM odel
SUNGuoChao,XUShuo,QIAOXiaoDong
(InstituteofScientificandTechnicalInformationofChina,Beijing100038,China)
Abstract:SinceLDA(LatentDirichletAllocation)topicmodelcouldmineunderlyingtopicsfromthecollection
基金项 目:本文受国家自然科学基金项 目:基于论文和专利资源的技术机会发现研究,十“二五”国家科技支撑计划项 目:
面向科技情报分析的信息服务资源开发与支撑技术研究 (2015BAH25F01)和中国工程科技知识中心建设项 目 知“识组织体系建设”
(CKCEST一2016-2—10)资助。
作者简介:孙国超,硕士研究生;徐硕 (通讯作者 )(1979一)。博士,副研究员。研究方向:智能情报分析,数据挖掘和大数据等。
E-mail:xush@istic.ac.cn;乔晓东 (1965一),英国谢菲尔德大学硕士,研究员,研究方向:信息服务、信息资源管理等。E-mail:
qiaox@istic.accn。
020
AToT模型可视化工具开发
oflarge—scaledocumentsinthesemanticviewpoint,ithasbeenappliedsuccessfullyinvariousfields.However,
LDA modelwasonlyfocusonthecontentsofdocumentswhileignoringotherimportantexternalinformation,
suchasauthorship,timestamp,etac.Inordertoovercomethisproblem,AToT(AuthorTopicoverTime)model
wasproposedbycombinedanalysisoftheauthorshipsandhtepublicationtimeofdocuments,whichCna improve
theAToTmodelformininghteimplicitinformationofthedocuments,andanalyzinghtereserachinterestofhte
authorsnadhtevariationofhtedocmu ents.Howeve~itwas
显示全部