基于布局的中文网页正文抽取技术的实现_开题报告_0109doc.doc
文本预览下载声明
浙 江 大 学
硕士学位论文开题报告
(专业学位)
论文题目: 基于布局的Web页面信息抽取技术的实现
一零一目录
一、 课题来源及类型 2
二、课题的意义及国内外研究现状 3
2.1 搜索引擎技术概述 3
2.2 网页解析技术概述 4
2.3 中文网页正文解析现状 5
三、课题的研究目标、研究内容和拟解决的关键问题 10
3.1 课题的研究目标 10
3.2 课题研究内容 11
3.3 课题拟解决的关键问题 11
四、课题的研究方法、设计及试验方案,可行性分析 12
4.1 课题的研究方法 12
4.1.1 工程实践法 12
4.1.2敏捷开发模式 13
4.2 课题设计方案 13
4.3 课题的可行性分析 20
五、课题计划进度和预期成果 20
5.1 课题计划进度 20
5.2 课题预期结果 21
一、 课题来源及类型
同时,在阿里巴巴B2B公司中,很多项目都需要一个功能强大、健壮、完善的Web信息解析系统,比如在投放广告的项目中,就需要调用该系统得到的页面正文从而分析出关键词以增加广告投放的合理性。因此,面对这么多上游项目的需求,阿里巴巴B2B公司提出了Content Match这个项目。
Content Match项目的项目背景是针对上游的广告产品的需求,抓取指定页面的内容,分析出该页面的正文部分,然后根据得到的正文部分分析出最能代表该页面核心主题的关键词,最后返回给下游的项目去根据关键词投放最精确的广告。
从上面的Content Match项目的项目背景可以看出,Web页面的正文解析是其中一个很重要的功能,也是一个难点。也就是基于此需求,从而提出了“基于布局的Web页面信息抽取技术的实现”这一课题。
Content Match项目是阿里巴巴B2B公司中一个比较重要的基础库项目,因此需要通过编写模块、提供接口来满足下游项目的需求,因此本课题是一个工程实践类课题。
二、课题的意义及国内外研究现状
2.1 本课题的意义
目前,在阿里巴巴B2B公司中,很多项目都需要一个能够去根据指定的网页将其网页正文解析出来的基础库项目。比如在阿里巴巴中,有一个类似于google adsense的ad match项目,该项目就是根据页面的主题或者核心内容来投放相关的广告,这个ad match项目就需要一个能够提取目标页面中的正文的模块,以便判断所投放相关广告的合理性。
另外一个应用场景就比如在阿里巴巴中,有一个叫“搬家”的项目,它需要去解析敦煌网、慧聪网中商品信息。这个项目也极需要一个能够分析页面正文的基础库来帮助他们获取敦煌网、慧聪网上的商品信息等。
因此,本课题的意义就在与此,它能够为阿里巴巴B2B公司中部分项目提供一个功能完善的网页正文解析基础库。
2.2 中文网页正文解析现状
在中文网页正文解析领域,已经有了大量的工作,在这里简要介绍一下这些已有的研究工作的成就和它们本身局限性。
目前,在该领域的研究方向有大致以下这么几类:
基于HTML结构的分析方法
基于自然语言处理的方法
基于
基于Ontology的方法
在这里,我先逐一进行简要地介绍:
基于HTML结构的分析方法
该类信息抽取技术的特点是,根据Web页面的结构定位信息。在信息抽取之前通过解析器将Web文档解析成语法树,通过自动或半自动的方式产生抽取规则,将信息抽取转换为语法树的操作实现信息抽取。
以XWRAP为例进行分析。通过交互方式,由用户在样本页中指定抽取区域的起始位置,系统确定整个抽取区域,并确定区域的类型(table,list等)然后通过可视化的方式,由用户在样本页指定语义项(如表头)及与之对应的实例,系统自动产生抽取规则实现信息抽取,最后系统利用启发信息获得数据间的层次结构关系,生成XML文档。
该系统对于不同的区域类型采用不同抽取规则提高系统的灵活性和效率。但是该系统只适合对含有明显区域结构的网页进行信息抽取,不支持对普通网页的抽取,模式的表达能力也非常有限,在学习阶段用户参与太多。
基于自然语言处理的方法
基于自然语言的处理技术,是在先将Web页面中HTML标签去除的基础上,对剩余的文本进行按照人类理解语言的方法进行处理。它的处理过程有点类似于中文分词技术,也是将一段文本按照一定的抽取规则和字典进行句法和语法分析、词性、词义的标注、专用名词(如人名、公司名等)的识别和抽取规则。具体地说就是利用子句结构、短语和子句间的关系建立基于语法和语义的抽取规则实现信息抽取。其中的规则由人工编制,也可从人工标注的语料库中自动学习获得。这类信息抽取主要适用于源文档中含有大量文本的情况。
基于自然语言的信息抽取技术是将Web文档视为文本进行处理的。优点是能够基于理解语义进行抽取。缺点也很明显:抽取的实现无法利用Web文档独特于普通文本的层次特征和标签,抽取规
显示全部