目录详细设计说明书.pdf
目录
引言
12
系统的结构
22
网页信息采集及数据预处理模块设计说明
33
候选话题发现模块设计说明
46
话题能量计算模块设计说明
59
热点话题排序模块设计说明
611
详细设计说明书
1引言
1.1编写目的
a.定义系统总体开发过程,作为开发人员项目开发的基础;
b.撰写此文档的目的在于让开发人员明确开发过程,各部分接口及数据传递过程;
c.作为软件总体测试和项目验收的依据;
1.2背景
a.待开发软件系统的名称:BBS热点话题发现系统
b.本项目的用户:网站访问者
1.3定义
a.BBS话题:BBS话题是由一个或者多个讨论类似内容的BBS主题集合
1.4参考资料
a.项目需求分析报告
2系统的结构
如图2-1为BBS热点话题发现系统的框架图:
Web数据库
网页信息采集及数据预处理热点话题发现及热度排序
文本特对主题
网页网页分词,热点话
征提取进行增话题能
数据文本去除停题排序
及文本量单边量计算
采集解析用词及显示
表示聚类
2-1BBS热点话题发现系统的框架
3网页信息采集及数据预处理模块设计说明
3.1程序描述
网页信息采集及数据预处理子系统主要分为:网页数据采集、网页文本解析、网页文本
分词及去除停用词四部分。
3.2功能
如下3-1为网页信息采集及数据预处理子系统的IPO图:
1.获取web页面数据;1.将帖子内容存储到post
用户选择BBS站
2.web文本解析;表中;
点,系统获取
3.文本分词;2.将过滤后的分词结果存
初始URL
4.分词结果过滤入到word表中
输入处理输出
3-1网页信息采集及数据预处理子系统的IPO
3.3性能
本模块采用多线程的方式,同时对数据进行解析、分词、过滤的操作,大大提高了运行
速度,使得系统可以快速的处理大量数据;
3.4流程逻辑
开始
输入初始URL及
结束点