基于内容冗余的 Web 信息抽取-计算机应用技术专业论文.docx
文本预览下载声明
基于内容冗余的 Web 信息抽取
Exploiting Content Redundancy for Web Information Extraction
研究生姓 名:陈夫桂 指导教师姓名:胡文江 内蒙古科技大学信息工程学院 包头 014010,中国
Candidate: Chen Fu-gui Supervisor: Hu Wen-jiang School of Information Engineering
Inner Mongolia University of Science and Technology Baotou 014010,P.R.CHINA
独 创 性 说 明
本人郑重声明:所呈交的论文是我个人在导师指导下进行的研究 工作及取得研究成果。尽我所知,除了文中特别加以标注和致谢的地 方外,论文中不包含其他人已经发表或撰写的研究成果,也不包含为 获得内蒙古科技大学或其他教育机构的学位或证书所使用过的材料。 与我一同工作的同志对本研究所做的任何贡献均已在论文中做了明确 的说明并表示了谢意。
签名:
日期:
关于论文使用授权的说明
本人完全了解内蒙古科技大学有关保留、使用学位论文的规定, 即:学校有权保留送交论文的复印件,允许论文被查阅和借阅;学校 可以公布论文的全部或部分内容,可以采用影印、缩印或其他复制手 段保存论文。
(保密的论文在解密后应遵循此规定)
签名:
导师签名:
日期:
内
内蒙古科技大学硕士学位论文
II
II
摘 要
随着计算机和网络技术的飞速发展,越来越多的人们开始在网络上搜索他们所 需要的信息。然而,在网络上,许多的广告和不相关的链接嵌入在所需的信息中, 使有用信息很难从无用信息中分离出来,这在一定程度上加重了网页噪声,使有用 信息产生飘逸,它们严重影响着搜索引擎的检索结果,因此网页信息抽取技术应运 而生。对信息抽取的现状进行分析可以发现,模板技术提供了一个很好的信息抽取 途径。
本文介绍了网页信息抽取技术的发展历史、操作原理和相关技术,详细分析了 现有的页面抽取方法的优点和不足,总结出基于模板的站点信息进行抽取时存在两 个关键性质:
性质一:多个网站包含统一实体的页面。此外,一个跨页面的实体的属性值是 本质类似的。
性质二:在一个网站的网页有一个类似的结构即符合一个共同的模板。 其中性质一意味着有跨网站的冗余内容,可以利用此实体内容的冗余,从一个
站点中提取,以确定重叠的实体在不同的网站页面的属性值。性质二意味着属性值 出现在一个网站的页面上的固定位置,故可以利用位置内容的冗余,因此,一旦确 定了一个网站若干页的属性值,就可以推断出它们在网站中的具体位置,使用这个 方法从该网站的其余页面中提取属性值。
基于此,本文提出了一种从模板网站中利用网络上的冗余内容提取结构化数据 的方法。该算法从一些原始网站提取记录来填充种子数据库,然后,在每一个新的 站点标识值,为了配合不同跨站点交涉的属性值,而进行了一系列相似性度量;为 了过滤掉噪声,在那些基于模板的网站发现并应用了该属性的实际值。通过大量数 据进行实验表明,本文提出的方法能够更有效地抽取网页信息。
关键词:信息抽取;内容冗余;相似度;抽取规则
III
III
Abstract
Along with the computer and the rapid development of network technology, more and more people begin to search the Internet for the information they need. However, in the network, many of the ads and not related links embedded in the required information, so that useful information is difficult to separate from the useless information, which to some extent aggravates the page noise, so that useful information to produce elegant, which severely affects the search results, so the page information extraction technology emerge as the times require. On the information extraction of the status quo analysis can be found, the templa
显示全部