文档详情

信息抽取中基于DOM树过滤器方法研究.pdf

发布:2016-03-19约1.71万字共6页下载文档
文本预览下载声明
陋酗琵爻覆瓣蘸翻 软件时空 Illl Illlll IIIIIIIIIll II—III—I 曼!鼍寰鬯!曼!曼鼎!!鼍曼曼燃!詈!皇慰世!!!曼燃邕I .一. 文章编导:1008-0570(2008)10-3-0217-03 M树的过滤器方法的研究 信息抽取中基于DO Extraction AFi|埯r-methodsResearchinDOM—treebasedinformation (上海大学)彭文滔叶飞跃李霞员红娟 PENGWen-taoYE UXiaYUAN Fei-yue Hong-juan {}囊要:分榜了信急耱嚣中各耱茭蟊颈楚理秘方法,提蠢一秘改选方法一基于DOM糖结糖鳃过滤器,并设诤了三跨过滤器。 讨论过滤器的原理,给出了具体的实现算潦。最后根据过滤器的一个具体应用,总结出蒜适应予当前网页的结构和设计的 特点,验证了方法鼬正确性和适用幔,大大提高了馆息抽取的效率和准确零。 关键词:过滤潞:DOM;信息抽取 中图分类号:TP393文献标识码:A forwardfiltersmethodthat severalmethdsof ininformationextraction.The a Abstract:Analyzed webpagepretreatment paperputs basedonDOMtree threekindsoffilters.Thendiscussesthe offiltersandthe ofthe structure,and principle realizingalgo· designed itis fortheeulTentcharacteristicof ofthefiltersis offiltersshowthat suitable using rithm.Finally,theapplication discussed,practical the ofinformation structureand haseomfirmedit is enhanced extraction. homepage design。and accuracy,greatly efficiency extraction words:filter;,DOM;information Key 的过滤器力法。它的目标不是提取细粒度的数据丽是过滤掉阚 1引言 页中凌乱多余的信息。 信息抽取是直接从自然语言文本中抽取事实信息,并以结 梅纯鼢形式攘述信怠。侯信怠查诲,文本深瀑挖箍,鑫凌霾答簿 静卡片的形式的方法完戏霹鼹页蠹容翡提取。这种方法将瓣
显示全部
相似文档