文档详情

舆情软件-舆情监控系统.ppt

发布:2017-11-22约2.97千字共30页下载文档
文本预览下载声明
互联网舆情监控系统 主要内容 企业面临的问题 总体框架 主要功能 系统部署 主要内容 企业面临的问题 系统架构 主要功能 系统部署 系统架构(1/2) 系统架构(2/2) 主要内容 企业面临的问题 总体框架 主要功能 系统部署 网站发现是舆情监控的基础,只有高效的发现接入的绝大多数网站,才能有效分析网内舆情的情况,本系统采用DNS分析+HTTP分析+爬虫分析+IP网站分析4中手段同时发现网站,可高效发现IDC内、IDC外绝大多数网站。 DNS分析+HTTP分析+爬虫分析+IP扫描的优势 1.DNS分析方式采用实时流量分析方式,范围覆盖全省,且该方式无需对DNS做任何改动。 2.HTTP分析方式实时分析IDC流入的HTTP请求方式,处理流量下,效率高。 3.爬虫分析方式,采用爬虫主动遍历方式,其可自动将DNS分析及HTTP分析发现的导航类网站作为种子站点,做到相互补充。 4.IP扫描方式可主动对IP+端口号形式的无域名类IP网站进行主动发现,有效补充前3种方式,而IP网站也经常是非法信息泛滥的源头。 主要功能-网站分类(1/2) 主要功能-网站分类(2/2) 主要功能-热点、敏感话题挖掘(1/2) 主要功能-热点、敏感话题挖掘(2/2) 主要功能-负面分析 主要功能-趋势分析 主要功能-关键词匹配 主要功能-网页快照 主要功能-自学习机制 主要功能-报表管理 主要功能-系统管理 成功案例 企业面临的舆情问题 网络危情猛于虎,随着网络普及,信息爆炸,政府和企业都面临巨大的挑战: 如何能第一时间获得网络信息,尤其负面信息 如何能及时了解社会热点 如何获取敏感话题 如何控制不良信息的传播 与竞争对手相比,自身产品的网络关注度、美誉度等如何 如何架起和网民沟通的桥梁 品牌、产品形象在网民中是否健康 所属行业主要的舆论意见、行业动态如何 模块化设计 -模块耦合度低,便于修改和维护 灵活可扩展 -方便将其它功能集成进该系统 集中部署 -方便部署和实施 分布式处理 -数据处理效率高,能适应大规模应用 分权管理 -权限灵活划分便于分工协作,支持省、地市分级管理 网站发现 网站分类 热点、敏感信息挖掘 关键词匹配 网页快照 自学习机制 分级权限管理 报表管理 主要功能 主要功能-网站发现 网站发现 网站分类 热点、敏感信息挖掘 关键词匹配 网页快照 自学习机制 分级权限管理 报表管理 主要功能 功能 系统可通过爬虫将网站页面抓取至本地,然后对网站通过内容及页面结构特征进行多维度分析,统计哪些网站可能是新闻、体育类网站,哪些论坛类网站、微博类网站,并形成论坛类网站列表。 原理 1.多维度特征论坛类网站分析: 通过多维度特征对网站进行综合分析,判定其是否为论坛类网站。 域名分析:统计归类BBS.XX.COM BBS.XX.NET等域名 结构分析:分析页面结构,具备登录、注册、阅读权限、栏目导航、帖子列表、回帖等论坛专有特征分析。 插件分析:如DISCUZ类(发帖际遇、版主已阅、防灌水插件等),PHPwind类等 关键字分析:结合关键字在网页中出现的位置,分析论坛特征,如在帖子列表中应含有回复、评论、精华等关键字。在登录页应含有登录、注册、忘记密码等关键字。 2.多维度特征微博分析 通过多维度特征分析,判定其是否为微博类网站。 结构分析:注册微博、登录微博、微博列表、用户列表、首页滚动微博内容、评论、转发、收藏等 关键字分析:首页应出现:立即开通微博、账号、密码、忘记密码等关键字,用户微博列表应出现:来自XX微博、来自XX客户端、转发、评论等 3.部分网站分类明细 新闻、体育、娱乐、教育、游戏、财经、科技、视频、汽车、房产、女性、音乐、商城、手机 网站发现 网站分类 热点、敏感信息挖掘 负面分析 趋势分析 关键词匹配 网页快照 自学习机制 报表管理 主要功能 功能 对当前互联网争论的热点话题进行分析、发现。统计出当前热点话题列表。 对特定话题进行跟踪分析,关注其回帖率,并支持按时间段跟踪统计分析。 舆论导向分析,对热点话题进行褒贬分析,分析舆论导向。 敏感话题分析,自动发现热点话题中的敏感话题,或者发现特定敏感话题。 原理 通过对海量网页数据进行深度挖掘,通过对关键词进行分析比较,统计话题词组出现的频率,更新频率。根据出现频率的高低对话题进行热点归类。 系统流程图 网站发现 网站分类 热点、敏感信息挖掘 负面分析 趋势分析 关键词匹配 网页快照 自学习机制 报表管理 主要功能 功能 对特定话题进行褒义、
显示全部
相似文档