一种中文微博新闻话题检测的方法.pdf
文本预览下载声明
V01.39
第39卷第1期 计算机科学 No.1
Science 2012
2012年1月 Computer Jan
一种中文微博新闻话题检测的方法
郑斐然苗夺谦张志飞高灿
(同济大学计算机科学与技术系 上海201804)
(同济大学嵌入式系统与服务计算教育部重点实验室 上海201804)
摘要微博的迅猛发展带来了另一种社会化的新闻媒体形式。提出一种从微博中挖掘新闻话题的方法,即在线检
测微博消息中大量突现的关键字,并将它们进行聚类,从而找到新闻话题。为了提取出新闻主题词,综合考虑短文本
中的词频和增长速度而构造复合权值,用以量化词语是新闻词汇的程度;在话题构造中使用了上下文的相关度模型来
支撑增量式聚类算法,相比于语义相似度模型,其更能适应该问题的特点。在真实的微博数据上运行的实验表明,本
方法可以有效地从大量消息中检测出新闻话题。
关键词微博,新闻,话题检测,聚类
中图法分类号TI)39l文献标识码A
News Detection
Topic App瑚ch蚰CllineseMicmb崦
ZHENGFei-r姐 ZHANGZK—feiGA0CaIl
MU旧Du0-qiaIl
of sci印ceand 201804,Chna)
(Department Technology,To嘲iUniversity,Sh锄ghai
C0mputer
of 201804,Chilla)
(The ofEmbeddedand Edu∞tion,T0ng;iUniverSity,shaIlghai
KeyLabomtory SysternSen,ice(梳put№,Ministry
anotherfomofSocialnewsmedia.The an
Abstn蛇tThe of brillgs paperproposedapp“)ach
popularityIIlicroblogging
fo咖ed the in numbersand
0fnews findingemergingkeyⅥ帕rdslarge
topicsrniningfrom“croblog.Newstopics、Ⅳere by
wasiIltmduced word and出e
th眦LToe)【tractnews frequency
clusteriIlg keⅣords,acompoundweight combimng山e
显示全部