文档详情

基于内容冗余的 Web 信息抽取-计算机应用技术专业论文.docx

发布：2019-03-27约4.98万字共57页下载文档

文本预览下载声明

基于内容冗余的 Web 信息抽取 Exploiting Content Redundancy for Web Information Extraction 研究生姓名：陈夫桂指导教师姓名：胡文江内蒙古科技大学信息工程学院包头 014010，中国 Candidate： Chen Fu-gui Supervisor： Hu Wen-jiang School of Information Engineering Inner Mongolia University of Science and Technology Baotou 014010，P.R.CHINA 独创性说明本人郑重声明：所呈交的论文是我个人在导师指导下进行的研究工作及取得研究成果。尽我所知，除了文中特别加以标注和致谢的地方外，论文中不包含其他人已经发表或撰写的研究成果，也不包含为获得内蒙古科技大学或其他教育机构的学位或证书所使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中做了明确的说明并表示了谢意。签名：日期：关于论文使用授权的说明本人完全了解内蒙古科技大学有关保留、使用学位论文的规定，即：学校有权保留送交论文的复印件，允许论文被查阅和借阅；学校可以公布论文的全部或部分内容，可以采用影印、缩印或其他复制手段保存论文。（保密的论文在解密后应遵循此规定）签名：导师签名：日期：内内蒙古科技大学硕士学位论文 II II 摘要随着计算机和网络技术的飞速发展，越来越多的人们开始在网络上搜索他们所需要的信息。然而，在网络上，许多的广告和不相关的链接嵌入在所需的信息中，使有用信息很难从无用信息中分离出来，这在一定程度上加重了网页噪声，使有用信息产生飘逸，它们严重影响着搜索引擎的检索结果，因此网页信息抽取技术应运而生。对信息抽取的现状进行分析可以发现，模板技术提供了一个很好的信息抽取途径。本文介绍了网页信息抽取技术的发展历史、操作原理和相关技术，详细分析了现有的页面抽取方法的优点和不足，总结出基于模板的站点信息进行抽取时存在两个关键性质：性质一：多个网站包含统一实体的页面。此外，一个跨页面的实体的属性值是本质类似的。性质二：在一个网站的网页有一个类似的结构即符合一个共同的模板。其中性质一意味着有跨网站的冗余内容，可以利用此实体内容的冗余，从一个站点中提取，以确定重叠的实体在不同的网站页面的属性值。性质二意味着属性值出现在一个网站的页面上的固定位置，故可以利用位置内容的冗余，因此，一旦确定了一个网站若干页的属性值，就可以推断出它们在网站中的具体位置，使用这个方法从该网站的其余页面中提取属性值。基于此，本文提出了一种从模板网站中利用网络上的冗余内容提取结构化数据的方法。该算法从一些原始网站提取记录来填充种子数据库，然后，在每一个新的站点标识值，为了配合不同跨站点交涉的属性值，而进行了一系列相似性度量；为了过滤掉噪声，在那些基于模板的网站发现并应用了该属性的实际值。通过大量数据进行实验表明，本文提出的方法能够更有效地抽取网页信息。关键词：信息抽取；内容冗余；相似度；抽取规则 III III Abstract Along with the computer and the rapid development of network technology, more and more people begin to search the Internet for the information they need. However, in the network, many of the ads and not related links embedded in the required information, so that useful information is difficult to separate from the useless information, which to some extent aggravates the page noise, so that useful information to produce elegant, which severely affects the search results, so the page information extraction technology emerge as the times require. On the information extraction of the status quo analysis can be found, the templa

显示全部

相似文档