文档详情

《微博热点话题发现的算法设计案例综述》6300字.docx

发布:2025-03-08约8.34千字共11页下载文档
文本预览下载声明

微博热点话题发现的算法设计案例综述

目录

TOC\o1-2\h\u12826微博热点话题发现的算法设计案例综述 1

32611.1话题的演化流程 1

269081.2微博热点话题发现 2

214031.3微博数据采集及处理 2

20411.1.1微博数据采集 2

305301.1.2文本预处理 4

31771.4微博文本表示 5

192911.5微博文本聚类 6

238111.5.1聚类算法的选择 6

80691.5.2Canopy算法的基本思想 6

22351.5.3K-means算法的基本思想 7

136531.5.4Canopy-Kmeans算法的并行实现 8

微博内容的口语化严重并且文本格式不规范,为了减小数据稀疏带来的影响需要过滤掉噪声数据,从而使得到的微博文本数据尽可能的包含更多的信息量;其次对去除噪声之后的数据文本进行分词和去除停用词的操作,并对处理完成的文本进行向量化;最后对文本进行聚类生成热点话题。

1.1话题的演化流程

微博热点话题是指在某段时间内引起大量微博用户对相关微博进行转发、评论或点赞的话题。互联网的普及使得现实社会中发生的几乎所有重大事件都会在微博上被讨论到,在表象上看话题的产生是偶然的,是突然爆发的,但背后的根源是微博用户情绪的反应和宣泄。

和事件一样,话题也有其产生、发展、衰落然后凋亡的周期,而话题热度的持续时间就是话题的生命周期。事件发表在微博平台上就标志着话题的产生,但是由于每个事件的影响力和发生时环境的不同,话题产生之后一般都会有一个发展的阶段,在这个阶段中会经过若干次转发和评论,特别是粉丝量多、影响力大的关键用户的参与会加速话题的发展。当出现大量与事件相关的转发、评论等数据信息后,就形成了热点话题,标志着事件发展到了高潮。微博话题的寿命普遍偏短,95%以上的微博话题寿命不能达到24小时,平台的时效性、用户对事件的新鲜度和其他事件的产生都影响着话题热度的持续时间[58]。随着时间的推移,用户对该话题的关注度和参与度降低,话题热度也随之下降,话题开始衰落直至凋亡。话题热度主要转发数目和评论数目有关,本文采取如下的话题热度计算方法[59],如公式(3-1)所示。

(3-1)

式中,表示话题的热度,表示微博的转发数目,表示第条微博的评论数量,表示博主发布该微博时的粉丝数目。由话题热度计算公式,综合考虑转发数目、评论数目以及博主粉丝数目对微博热度的影响,通过对话题的热度进行排序就可以得到话题热度排行列表。

1.2微博热点话题发现

微博热点话题发现的方法大致如下:首先通过新浪微博API接口[60]对新浪微博的网页数据进行采集。由于微博内容的口语化严重并且文本格式不规范,为了减小数据稀疏带来的影响需要过滤掉噪声数据,从而使得到的微博文本数据尽可能的包含更多的信息量;其次对微博文本数据做预处理操作,主要有分词和去停用词等;进而对微博进行文本表示,包括关键词提取、文本向量化等步骤;最后对向量计算文本相似度进行聚类,相同话题的文本划分为一簇,完成热点话题发现。发现热点话题的具体过程如图3-1所示:

图3-1微博热点话题框图

Fig.3-1BlockDiagramofHotTopicDiscoveryinMicroblog

1.3微博数据采集及处理

1.1.1微博数据采集

由于微博的活跃用户更多是80、90后的年轻群体,且发表的微博博文内容涉及的主题和表达形式并不固定,这为微博情感分析增加了难度。虽然微博文本的表达形式多种多样,但归根结底依旧是使用文本表达情感。新浪微博凭借着“短平快”的消息机制已成为国内最受欢迎的平台之一,使得越来越多的学者对其文本数据进行研究。而对微博进行分析的第一步,就是根据网络爬虫获取所需要的数据。

目前,对于新浪微博数据的采集,主要有两种方式:一种是通过定制网络爬虫来获取,另一种是使用新浪微博应用程序接口(ApplicationProgrammingInterface,API)获取数据。新浪微博对外提供了相对简单的数据获取方式,研究人员可以通过微博API的开放平台实时获取最新的微博数据。所以,本文采用调用新浪微博API接口的方式对微博数据采集。研究人员需要下载并配置软件开发工具包(SoftwareDevelopmentKit,SDK)并填写授权文件,在获取到新浪微博的官方授权以后才可以进行开发操作。本文选自Java版本的SDK进行数据采集,步骤如下:

(1)向微博官方平台申请成为开发者并在微博中创建微博账号,目的是为了获取AppKey和AppSecret,经微博官方授权后可以登陆进入开发平台;

(2)进入应用信息设置OAuth2权限,在调

显示全部
相似文档