文档详情

一种中文微博新闻话题检测的方法.pdf

发布:2017-09-18约1.97万字共4页下载文档
文本预览下载声明
V01.39 第39卷第1期 计算机科学 No.1 Science 2012 2012年1月 Computer Jan 一种中文微博新闻话题检测的方法 郑斐然苗夺谦张志飞高灿 (同济大学计算机科学与技术系 上海201804) (同济大学嵌入式系统与服务计算教育部重点实验室 上海201804) 摘要微博的迅猛发展带来了另一种社会化的新闻媒体形式。提出一种从微博中挖掘新闻话题的方法,即在线检 测微博消息中大量突现的关键字,并将它们进行聚类,从而找到新闻话题。为了提取出新闻主题词,综合考虑短文本 中的词频和增长速度而构造复合权值,用以量化词语是新闻词汇的程度;在话题构造中使用了上下文的相关度模型来 支撑增量式聚类算法,相比于语义相似度模型,其更能适应该问题的特点。在真实的微博数据上运行的实验表明,本 方法可以有效地从大量消息中检测出新闻话题。 关键词微博,新闻,话题检测,聚类 中图法分类号TI)39l文献标识码A News Detection Topic App瑚ch蚰CllineseMicmb崦 ZHENGFei-r姐 ZHANGZK—feiGA0CaIl MU旧Du0-qiaIl of sci印ceand 201804,Chna) (Department Technology,To嘲iUniversity,Sh锄ghai C0mputer of 201804,Chilla) (The ofEmbeddedand Edu∞tion,T0ng;iUniverSity,shaIlghai KeyLabomtory SysternSen,ice(梳put№,Ministry anotherfomofSocialnewsmedia.The an Abstn蛇tThe of brillgs paperproposedapp“)ach popularityIIlicroblogging fo咖ed the in numbersand 0fnews findingemergingkeyⅥ帕rdslarge topicsrniningfrom“croblog.Newstopics、Ⅳere by wasiIltmduced word and出e th眦LToe)【tractnews frequency clusteriIlg keⅣords,acompoundweight combimng山e
显示全部
相似文档