文档详情

微博话题研究.doc

发布:2017-04-26约1.46万字共22页下载文档
文本预览下载声明
硕士学位论文 工作总结与展望 摘要:在近几年里,作为一种新兴的社交媒体与信息交流平台的微博正飞速的发展和广泛的应用,但相比之下,微博信息的分析与挖掘还处于起步阶段。如今,因为微博信息具有海量、短小、不规范、重复度大等特点,传统的信息分析方法难以满足微博信息分析的需求。所以,为了能够将内容相近或相似的微博聚集到一起,识别出微博话题,本文引入文本聚类方法,并针对微博信息的特点展开研究和试验。这样不仅能够节省用户查看微博的时间,帮助用户实现信息的有效组织,还对微博舆情的预警有一定的帮助作用。 本文主要完成了以下几个方面的工作。第一,先分析了微博文本信息的特点,再根据其特点研究了常用的微博信息分析方法,比较了各种方法的优缺点从而确定本文基于文本聚类的研究方案。第二,分析微博信息的特点以及其处理效率等因素设计了基于文本聚类的微博信息处理流程,包括微博文本预处理、微博文本表示及聚类处理;第三,对文本表示方法和文本聚类算法进行了深入的分析,使用向量空间模型描述微博文本,用 k-means 算法对微博文本进行聚类,并且介绍微博信息处理流程的具体实现,第四,利用预处理后所得的微博数据进行试验,并深入讨论了特征维数和距离对聚类结果的影响。 本文的研究工作表明,采用“最小最大原则”能够较好地 处理k-means 算法对初始点敏感的问题;在计算文本相似度时,相比欧氏距离,利用余弦距离对微博文本进行聚类会更加好,且能够获得更高的正确率和召回率,因此从实践上论证了 k-means 文本聚类算法对微博信息分析的可行性和合理性。并为微博信息的深度分析和后续应用系统的开发提前做了一些基础准备。本文的研究工作对微博舆情监控等方面的应用开发有着重要的参考意义。 关键词:聚类技术;K-Means;微博话题 绪 论 课题背景与研究意义  MACROBUTTON MTEditEquationSection2 Equation Chapter (Next) Section 1 SEQ MTEqn \r \h \* MERGEFORMAT  SEQ MTSec \r 1 \h \* MERGEFORMAT  SEQ MTChap \h \* MERGEFORMAT 最近3 年,微博服务在迅猛地发展。例如,国外最大的??博服务提供商推特( Twitter: http: //www.T)目前每天产生超过5 500 万条微博( 字数不超过140 字符的短文本) ,微博用户访问数超过1. 8亿,其注册用户数则超过1 亿。在近几年,国内的微博服务也开始兴起。目前主流的互联网门户都提供了微博服务。其中比较典型的代表是新浪微博。截止2016 年8月它已经拥有超过5. 4 亿的微博注册用户。 由于当今互联网的飞速发展,社交网络的影响力已经超过报纸、广播、电视等传统社交媒体,也日益成为人们日常生活中收发信息的主要渠道,与人们的生活越来越密不可分了。人们越来越倾向于通过网络来结交朋友、发表观点。社交网络有很多种不同的形式,微博就是其中一种重要形式。微博是一种基于用户关系的社交平台,在微博上,用户以文字、图片、链接等形式发布信息,实现信息的即时发布、传播与获取。微博的进入门槛非常低,用户个人能够在短时间内注册自己的微博账号并且发布信息,因此,近几年来,微博正飞速地发展。在国内,新浪微博是微博的一个典型模范。 之所以微博服务正蔚然成风,是因为它满足了草根快速交流分享信息的需要。在微博平台上,任何用户可以就任何话题发布任何消息,此外,微博用户还可以关注其他用户且追随他们关注其他的微博,或者向追随者推荐关注其他的微博,使得微博平台成为一个巨大的社会化网络。正是因为微博拥有巨大的信息量和庞大的用户群体,所以它如今已经成为一个最重要的实时信息源和一种影响力日益增强的新的社会媒体。一些重要的热点事件,都是由微博首先报道的,例如,2009 年迈克?杰克逊逝世的消息,2010 年智利大地震以及2011 年的本?拉登被击毙等。 作为一种媒体形式,微博对热点话题十分敏感,事实上,微博已经成为热点话题传播的重要媒介。相比传统媒体,微博具有发布便捷、内容简单、热点话题传播实时迅速等优点。就目前情况来看,微博热点话题往往会对社会造成较大的影响。在当今社会,微博热点话题往往会很大程度地影响到社会,其影响范围、传播力度以及扩散速度都超乎想象。比如在近几年出现的西安药家鑫案、河北大学“李刚门”案和“茉莉花革命”案等微博热点话题讨论中,既有保护弱者的仗义执言,也有心怀不轨的故意煽动。 因此,在新兴社会媒体对社会影响日渐显著的背景下, 实时掌控微博热点话题对行业调研、商业情报分析、网络舆情预警、信息安全以及国家灾难应急响应等方面都具有重要意义。然而由于目前微博文本短小,兼备结构化特性,且具有数
显示全部
相似文档