开题报告-基于Lucene和Heritrix的新闻垂直搜索引擎的研究与实现.doc
文本预览下载声明
一、研究的目的、意义与应用前景等:
研究的目的和意义:
在日常生活之中引擎技术应用变得越来越频繁和广泛人们日常生活提供极大的便利。搜索引擎针对某一行业的专业搜索引擎,是搜索引擎分和延伸相对通用搜索引擎的信息量大、查询不够准确、深度不够等提出来新的搜引擎服务模式,通过针对某一特定领域、某一特定人群或一特定提供的有一定的价值的信息和相关服务
应用前景:
目前我们日常使用的百度、谷歌、雅虎引擎它们了众多网站信息,将信息的展现到用户面前起到信息导航的作用。市场需求多元化发展决定搜索引擎服务模式细分,针对不同行业提供更加精确的行业服务模式搜索的出现提供了良好的市场空间我们每次上淘宝可以相关信息的所有商品或者是针对的信息可以将某一新闻全部展现等等Lucene的垂直搜索引擎
二、研究的内容和拟解决的主要问题:
研究的内容:
(一) 网页信息的抓取
网页新闻信息进行,抓取到本地
(二) 网页信息处理抓取到的信息进行清洗分词,降噪相似度权重计算出来。处理后的数据存库将处理后的数据批量数据库中去方便操作搜台和easy-UI搜索引擎框架实现搜索引擎的数据查询,索引配置等操作
(五) 设计数据数据表数据表搜索引擎配置的索引和关
(六) 完成前后台各个实现
前后台数据互动索引导入前台展示
解决的问题:
(一)本课题将研究如何通过基于Lucene实现垂直搜索引擎
(二)该设计实现了对网页信息的抓取数据进行处理
(三)本课题难点在于信息处理的算法台
三、研究思路、方法和当前收集的文献:
研究思路:
在开始本课题之前, 我首先要做的就是研究垂直搜索引
研究方法:
1、 在较高性能的电脑上安装 JDK(java 开发工具)
2、 下载并安装 MySQL 数据库服务器
3、 下载并安装 My Eclipse 插件或集成的 My Eclipse 开发环境
4、 下载Heritrix-Lucene-Solr等框架并学习的使用框架并数据
7、 边调试边修改相关 bug,最终完善本系统
当前收集的文献:
白坤,耿国华. 基于 Lucene/Heritrix 的垂直搜索引擎的研究与应用[J] . 计算机应用与软件, 2009, 26(1) : 212- 213.
白万明,苏希乐.Heritrix 在垂直搜索引擎中的应用[J].计算机时代, 2011, 29(9): 7- 9.
冯斌,基于Lucene小型搜索引擎的研究与实现[D]. 武汉理工大学硕士论文,0401
邱哲,符滔滔,王学松.开发自己的搜索引擎Lucene+Heritrix[J]. 北京: 人民邮电出版社, 2010.
刘建国,搜索引擎概述[D],北京大学计算机与科学技术,1999.
[6] HB Lee,F Nazareno,SH Jung,WS Cho.A vertical search engine for school information based on Heritrix and Lucene [J].Convergence and Hybrid Information Technology, 2011, 6935:344-351.
[7] 李建林基于Lucene的Web搜索引擎的研究D].兰州理工大学硕士论文2010.
[8] 王希望孟祥书王福顺.SSH架构的文本系统开发J].河北农业,12(4):538-541
[9] 邱崇志基于JavaEE技术网上在线考试系统D].电子科技大学硕士论文2013
四、特色或创新之处:
可以满足用户快速搜索的需求,Heritrix和Lucene还有三大框架的优势使得整个设计高效后台管理系统能满足管理员数据的操作
五、研究计划及预期进展:
利用自身所掌握的软件开发知识和现有的书籍资料与网络资源,对系统进行详细全面的分析与设计,要求对系统中的各功能模块能做到完备,调试运行无误。
毕业设计开题报告评定表
指导教师意见
该生与课题组成员和老师充分讨论,参考查阅了很多文献,本课题具有一定的理论研究价值与实际应用意义,拟采取研究方法得当,难度适中,同意开题。希望该同学能按计划认真完成相应工作。
指导教师签名:2015 年 10 月 10日 该生的选题具有较强的实际应用意义,有利于培养学生解决实际问题的能力,同意开题。
组长签名: 2015 年 10 月 11日
同意答辩小组意见
二级学院院长签名:2015 年 10 月 11日 备注
显示全部