信息抽取中基于DOM树过滤器方法研究.pdf
文本预览下载声明
陋酗琵爻覆瓣蘸翻 软件时空
Illl Illlll IIIIIIIIIll II—III—I
曼!鼍寰鬯!曼!曼鼎!!鼍曼曼燃!詈!皇慰世!!!曼燃邕I
.一.
文章编导:1008-0570(2008)10-3-0217-03
M树的过滤器方法的研究
信息抽取中基于DO
Extraction
AFi|埯r-methodsResearchinDOM—treebasedinformation
(上海大学)彭文滔叶飞跃李霞员红娟
PENGWen-taoYE UXiaYUAN
Fei-yue Hong-juan
{}囊要:分榜了信急耱嚣中各耱茭蟊颈楚理秘方法,提蠢一秘改选方法一基于DOM糖结糖鳃过滤器,并设诤了三跨过滤器。
讨论过滤器的原理,给出了具体的实现算潦。最后根据过滤器的一个具体应用,总结出蒜适应予当前网页的结构和设计的
特点,验证了方法鼬正确性和适用幔,大大提高了馆息抽取的效率和准确零。
关键词:过滤潞:DOM;信息抽取
中图分类号:TP393文献标识码:A
forwardfiltersmethodthat
severalmethdsof ininformationextraction.The a
Abstract:Analyzed webpagepretreatment paperputs
basedonDOMtree threekindsoffilters.Thendiscussesthe offiltersandthe ofthe
structure,and principle realizingalgo·
designed
itis fortheeulTentcharacteristicof
ofthefiltersis offiltersshowthat suitable
using
rithm.Finally,theapplication discussed,practical
the ofinformation
structureand haseomfirmedit is enhanced extraction.
homepage design。and accuracy,greatly efficiency
extraction
words:filter;,DOM;information
Key
的过滤器力法。它的目标不是提取细粒度的数据丽是过滤掉阚
1引言
页中凌乱多余的信息。
信息抽取是直接从自然语言文本中抽取事实信息,并以结
梅纯鼢形式攘述信怠。侯信怠查诲,文本深瀑挖箍,鑫凌霾答簿 静卡片的形式的方法完戏霹鼹页蠹容翡提取。这种方法将瓣
显示全部