文档详情

网络爬虫的设计与实现-毕业设计.doc

发布:2017-11-25约1.68万字共33页下载文档
文本预览下载声明
毕 业 论 文 论文题目 网络爬虫的设计与实现 摘 要 随着互联网的发展以及网上信息的日益丰富,传统的信息处理已经延伸到互联网领域。在对互联网上的信息进行处理时,常常要将分布在互联网各处的Web页面下载到本地供进一步处理。这便是所讨论的Web页面搜集工具——网络爬虫系统的核心功能。由于通用搜索引擎检索返回的结果过多、主题相关性不强以及随着人们对提供的各项信息服务的要求越来越高、越来越细,基于整个Web 的信息采集越来越力不从心。同时它也无法迅速地搜集到足够的最新的网络信息,也不能满足人们日益增长的个性化需求。 本文所述的网络爬虫程序是采用Java和MySql 5.0实现的。随着网络的迅速发展,万维网成为大量信息的载体,1 绪论 1 1.1概述 1 1.2 研究的意义 1 1.3 所开发的语言简介 2 1.4 本文技术介绍 2 1.4.1 Swing编程 3 1.4.2 多线程工作模式简介 3 1.4.3 JDBC访问数据库 5 2 系统总体分析与设计 7 2.1 系统需求分析 7 2.1.1系统总体用例图 7 2.1.1需求细分 7 2.2 系统技术 10 2.2.1搜索抓取策略比较 10 2.2.2正则表达式 13 2.2.3 字符串压缩算法分析 14 3 系统实现 15 3.1开发平台 15 3.2总体结构 16 3.2.1 分层结构 16 3.2.2 包结构 16 3.3各模块功能实现 16 3.2.1 网页下载模块 16 3.2.2 网页分析模块 18 3.2.3 pageRank计算模块 20 3.2.4 网页去重模块 21 3.2.5 网页的数据库管理模块(DAO) 22 3.2.6 工具包 23 4 数据库设计与实现 24 4.1 数据库表概念结构设计 24 4.2 数据库表逻辑结构设计 24 5 总结 26 参 考 文 献 27 英 文 摘 要 28 致 谢 29 仲恺农业工程学院毕业论文(设计)成绩评定表 30 1 绪论 1.1概述 随着互联网技术的不断发展,互联网信息呈现着爆炸式的增长,同时互联网用户对信息的需求也在不断增长,在巨大的用户需求中,搜索引擎应运而生,其中Google和百度分别是国内外两大顶级的通用搜索引擎,拥有着庞大的用户数量。但是随着用户对信息需求的不断具体化与精确化,通用搜索引擎中抓取的广度、搜索的精确度与更新的速度这三大难题阻碍着其满足互联网用户对信息具体化和精确化需求,因此主题搜索开始出现。主题搜索是针对某一个专门领域的信息进行搜索,满足互联网用户对信息具体化和精确化的需求。 无论是通用搜索引擎,还是主题搜索引擎,网络爬虫(Web Crawler)在其中都扮演着重要的角色。网络爬虫是搜索引擎获取网页的主要工具,搜索引擎通常在网络爬虫所抓取的网页中对用户的搜索进行匹配,从而得到搜索结果提供给用户。网络爬虫的搜索策略是网络爬虫的实现关键,是搜索引擎的核心技术,同时也通用搜索与主题搜索的最大区别之所在。 本文对当前搜索引擎中的集中搜索策略进行介绍与比较, 研究其中主题搜索较适合的搜索策略,并在此基础上,使用Java多线程实现网络爬虫。 网络爬虫系统的最大特色是采用多网络爬虫线程并行工作的方式, 每一个网 络爬虫爬取某一个具体的Web站点。这样做的优点有: 1.多线程并发工作的,提高了爬取效率; 2.对一个站点并发搜集的线程数目为1,从而避免了对搜集站点的攻击,防止了Web 服务器预备队列的溢出; 3. 与用户的可交互性强,站点在经过用户审核后才交给网络爬虫爬取。从而使用户可以控制网络爬虫系统爬取的方向。 1.2 研究的意义 随着网络的迅速发展,万维网成为大量信息的载体,如何有效地提取并利用这些信息成为一个巨大的挑战。搜索引擎(Search Engine),例如传统的通用搜索引擎AltaVista,Yahoo!和Google等,作为一个辅助人们检索信息的工具成为用户访问万维网的入口和指南。但是,这些通用性搜索引擎也存在着一定的局限性,如:(1) 不同领域、不同背景的用户往往具有不同的检索目的和需求,通用搜索引擎所返回的结果包含大量用户不关心的网页。 (2) 通用搜索引擎的目标是尽可能大的网络覆盖率,有限的搜索引擎服务器资源与无限的网络数据资源之间的矛盾将进一步加深。 (3) 万维网数据形式的丰富和网络技术的不断发展,图片、数据库、音频/视频多媒体等不同数据大量出现,通用搜索引擎往往对这些信息含量密集且具有一定结构的数据无能为力,不能很好地发现和获取。 (4) 通用搜索引擎大多提供基于关键字的检索,难以支持根据语义信息提出的查询。 为了解决上述问题,定向抓取相关网页资源的聚焦爬虫应运而生。聚焦爬虫是一个自动下载网页的程序,它根据既定的抓取目标
显示全部
相似文档