垂直搜索引擎在节能减排领域中的设计与实现.pdf
文本预览下载声明
第 19卷第 1期 重庆科技学院学报(自然科学版) 2017年2月
垂直搜索引擎在节能减排领域中的设计与实现
卜天 然
(安徽商贸职业技术学院,安徽 芜湖 241002)
摘 要:在研究垂直搜索引擎的设计思想、相关技术的基础上 ,利用Nutch开源框架设计实现了节能减排垂直搜索引
擎的设计 ,支持了对节能减排相关信息 的检索服务。系统采用 网页模板技术对 网页信息进行提取,采用改进的
TF—IDF算法提取特征词 ,利用基于特征词的向量空间模型进行主题相关性判定,利用朴素贝叶斯算法对网页信息
进行分类。
关键词:节能减排;搜索引擎 ;网页模板;向量空间;朴素贝叶斯
中图分类号:TP393 文献标识码:A 文章编号:1673—1980(2017)01—0092—05
搜索引擎的诞生,为人们快速查找互联网信息
1 垂直搜索引擎设计及工作流程
提供了一种快捷的途径,满足了人们搜索网络信息
的日益迫切的需求。但使用传统搜索引擎搜索相关 垂直搜索引擎是针对某一个特定领域、行业或
信息,不可避免地会包含许多广告 以及与主题不相 学科 内的网络信息资源,制定一些特定的搜索策略,
关的信息,影响了用户对某个特定领域信息的获取。 让网络爬虫智能在互联网上抓取相关的信息资源,
由于传统搜索引擎检索信息普遍存在信息量 为领域内或行业 内的专家、学者和需要这方面信息
大、信息杂糅不全、结果不准确等问题,使得越来越 的用户提供一整套网络信息资源的专业化搜索引
多学者开始研究垂直搜索引擎 J。如今市场上也 擎 。它对信息库中某一类信息进行整合,将网页
出现了大量的CiteSeerx、去哪网等面向各个领域的 的非结构化信息抽取成特定的结构化信息,最后以
垂直搜索引擎产品。 某种形式返 回给用户。
但 目前市场上没有一款成形的面向节能减排领 本次研究选用开源框架 Nutch作为爬取数据、
域的垂直搜索引擎,该类搜索引擎仍处于发展探索 分析数据、建立索引的工具。选用 Nutch的原因是
时期。基于开源框架Nutch设计和实现了一个面向 其能非常快速地爬取网页,能对这些网页建立索引
节能减排领域的垂直搜索引擎。为了提高Nutch搜 并提供维护工作,还能提供对索引文件每秒上千次
索引擎的效果,引入 以下技术:(1)网页模板技术, 的搜索,并尽可能地以最小的运作成本提供最高质
该技术提高了网页信息获取的准确性,模板中关于 量的搜索服务。其效率可以和一些商业搜索引擎相
网页关键信息的提取,也为部分网页的信息归类提 媲美。此外,Nutch和 Solr的源代码是开放的,其提
供了便利;(2)特征词提取技术,使用改进的TF— 供的强大的插件机制为开发者定制 自己的搜索引擎
IDF算法计算权重提取主题词库和分类特征词库; 提供了便利。
(3)向量空间模型,该模型用于对节能减排领域进 针对节能减排领域,利用 Nutch框架完成了垂
行主题相关性判断;(4)朴素贝叶斯算法,该算法针 直搜索引擎设计,并将节能减排信息分成政策资讯、
对网页通过模板中提取的关键信息无法分类的情 标准规范、技术文献等3类。其思路主要有4步:
况,提供分类依据。 (1)选择爬取节能减排信息的网站。
收稿 日期:2016—09—26
基金项 目:安徽省省级 自然科研重点项 目“大中型企业员工绩效评价理论模型信息化研究与实现”(KJ2016A134);安徽省省
级 自然科研一般项目“基于 Nutch的节能减排垂直搜索引擎设计与应用研究”(KJSM201601)
显示全部