文档详情

目录详细设计说明书.pdf

发布:2025-02-20约1.32万字共12页下载文档
文本预览下载声明

目录

引言

12

系统的结构

22

网页信息采集及数据预处理模块设计说明

33

候选话题发现模块设计说明

46

话题能量计算模块设计说明

59

热点话题排序模块设计说明

611

详细设计说明书

1引言

1.1编写目的

a.定义系统总体开发过程,作为开发人员项目开发的基础;

b.撰写此文档的目的在于让开发人员明确开发过程,各部分接口及数据传递过程;

c.作为软件总体测试和项目验收的依据;

1.2背景

a.待开发软件系统的名称:BBS热点话题发现系统

b.本项目的用户:网站访问者

1.3定义

a.BBS话题:BBS话题是由一个或者多个讨论类似内容的BBS主题集合

1.4参考资料

a.项目需求分析报告

2系统的结构

如图2-1为BBS热点话题发现系统的框架图:

Web数据库

网页信息采集及数据预处理热点话题发现及热度排序

文本特对主题

网页网页分词,热点话

征提取进行增话题能

数据文本去除停题排序

及文本量单边量计算

采集解析用词及显示

表示聚类

2-1BBS热点话题发现系统的框架

3网页信息采集及数据预处理模块设计说明

3.1程序描述

网页信息采集及数据预处理子系统主要分为:网页数据采集、网页文本解析、网页文本

分词及去除停用词四部分。

3.2功能

如下3-1为网页信息采集及数据预处理子系统的IPO图:

1.获取web页面数据;1.将帖子内容存储到post

用户选择BBS站

2.web文本解析;表中;

点,系统获取

3.文本分词;2.将过滤后的分词结果存

初始URL

4.分词结果过滤入到word表中

输入处理输出

3-1网页信息采集及数据预处理子系统的IPO

3.3性能

本模块采用多线程的方式,同时对数据进行解析、分词、过滤的操作,大大提高了运行

速度,使得系统可以快速的处理大量数据;

3.4流程逻辑

开始

输入初始URL及

结束点

显示全部
相似文档