文档详情

垂直搜索引擎在节能减排领域中的设计与实现.pdf

发布:2017-06-02约1.39万字共5页下载文档
文本预览下载声明
第 19卷第 1期 重庆科技学院学报(自然科学版) 2017年2月 垂直搜索引擎在节能减排领域中的设计与实现 卜天 然 (安徽商贸职业技术学院,安徽 芜湖 241002) 摘 要:在研究垂直搜索引擎的设计思想、相关技术的基础上 ,利用Nutch开源框架设计实现了节能减排垂直搜索引 擎的设计 ,支持了对节能减排相关信息 的检索服务。系统采用 网页模板技术对 网页信息进行提取,采用改进的 TF—IDF算法提取特征词 ,利用基于特征词的向量空间模型进行主题相关性判定,利用朴素贝叶斯算法对网页信息 进行分类。 关键词:节能减排;搜索引擎 ;网页模板;向量空间;朴素贝叶斯 中图分类号:TP393 文献标识码:A 文章编号:1673—1980(2017)01—0092—05 搜索引擎的诞生,为人们快速查找互联网信息 1 垂直搜索引擎设计及工作流程 提供了一种快捷的途径,满足了人们搜索网络信息 的日益迫切的需求。但使用传统搜索引擎搜索相关 垂直搜索引擎是针对某一个特定领域、行业或 信息,不可避免地会包含许多广告 以及与主题不相 学科 内的网络信息资源,制定一些特定的搜索策略, 关的信息,影响了用户对某个特定领域信息的获取。 让网络爬虫智能在互联网上抓取相关的信息资源, 由于传统搜索引擎检索信息普遍存在信息量 为领域内或行业 内的专家、学者和需要这方面信息 大、信息杂糅不全、结果不准确等问题,使得越来越 的用户提供一整套网络信息资源的专业化搜索引 多学者开始研究垂直搜索引擎 J。如今市场上也 擎 。它对信息库中某一类信息进行整合,将网页 出现了大量的CiteSeerx、去哪网等面向各个领域的 的非结构化信息抽取成特定的结构化信息,最后以 垂直搜索引擎产品。 某种形式返 回给用户。 但 目前市场上没有一款成形的面向节能减排领 本次研究选用开源框架 Nutch作为爬取数据、 域的垂直搜索引擎,该类搜索引擎仍处于发展探索 分析数据、建立索引的工具。选用 Nutch的原因是 时期。基于开源框架Nutch设计和实现了一个面向 其能非常快速地爬取网页,能对这些网页建立索引 节能减排领域的垂直搜索引擎。为了提高Nutch搜 并提供维护工作,还能提供对索引文件每秒上千次 索引擎的效果,引入 以下技术:(1)网页模板技术, 的搜索,并尽可能地以最小的运作成本提供最高质 该技术提高了网页信息获取的准确性,模板中关于 量的搜索服务。其效率可以和一些商业搜索引擎相 网页关键信息的提取,也为部分网页的信息归类提 媲美。此外,Nutch和 Solr的源代码是开放的,其提 供了便利;(2)特征词提取技术,使用改进的TF— 供的强大的插件机制为开发者定制 自己的搜索引擎 IDF算法计算权重提取主题词库和分类特征词库; 提供了便利。 (3)向量空间模型,该模型用于对节能减排领域进 针对节能减排领域,利用 Nutch框架完成了垂 行主题相关性判断;(4)朴素贝叶斯算法,该算法针 直搜索引擎设计,并将节能减排信息分成政策资讯、 对网页通过模板中提取的关键信息无法分类的情 标准规范、技术文献等3类。其思路主要有4步: 况,提供分类依据。 (1)选择爬取节能减排信息的网站。 收稿 日期:2016—09—26 基金项 目:安徽省省级 自然科研重点项 目“大中型企业员工绩效评价理论模型信息化研究与实现”(KJ2016A134);安徽省省 级 自然科研一般项目“基于 Nutch的节能减排垂直搜索引擎设计与应用研究”(KJSM201601)
显示全部
相似文档