基于半结构化和语义Web信息挖掘的智能搜索技术研究1.ppt
文本预览下载声明
基于半结构化和语义Web信息挖掘的智能搜索技术研究 Agenda 海量Web数据对信息发现的挑战 半结构化数据 搜索引擎现状和智能化信息检索 Web挖掘技术目前的研究情况 Semantic Web的信息搜索 数据的挑战 每天增加100万个页面,总数超过10亿。 有限的搜索引擎覆盖范围,低于20%。 知识表达方式的限制-无结构、半结构化和多媒体形式。 采用关键字的搜索方法在海量数据检索中能力有限。 数据的挑战 半结构化数据 介于完全结构化数据(如关系型数据库)和完全无结构的数据(纯文本)之间 自描述-数据和结构互相混合 无固定数据模式(Schema) 半结构化数据:HTML,XML… 半结构化数据模型 先有数据,后有模式。 数据模式用于描述数据的结构信息,而不是对数据结构进行强制性的约束无固定数据模式。 模式是非精确的,它可能只描述数据的一部分结构,也可能根据数据处理不同阶段的视角不同而不同 数据模式规模很大而且动态变化。 半结构化数据模式描述形式 基于逻辑的描述形式,如一阶逻辑(First-order Logic)、描述逻辑(Description Logic)及 Datalog。 基于图的描述形式,如Stanford大学提出的对象交换模型(Object Exchange Model,OEM)。 Web查询语言现状 任务-基于内容的查询(根据页面内容查询符合条件的页面)和基于页面之间链接结构的查询 第一代查询语言-WebSQL、WebLog、W3QL等 第二代查询语言-WebOQL、StruQL、Lorel等 搜索引擎现状和智能信息检索 仍以关键字匹配查询为主。 利用了Web文档超文本信息。 部分特定知识领域的智能搜索引擎使用了机器学习和人工智能算法实现数据抽取。 基于自然语言理解的搜索引擎还处于低级的萌芽状态。 智能搜索引擎样例 Stanford Google-使用PageRank评估页面质量;世界上第一个PDF文档搜索引擎。 NEC-ResearchIndex(Inquirus)-采用Web内容挖掘算法对Web上科技论文提取特征参数,如作者、文章名和摘要等。 Cora-计算机科学论文检索系统,使用了基于随机过程方法的实体抽取技术。 Vivisimo-CMU项目,高精度的结果分类。 智能搜索引擎样例 Web挖掘技术目前的研究情况 Web Content Mining Web Structure Mining Web Usage Mining Web Content Mining(WCM) 定义:Web Content Mining=Web Information Retrieval+Web Information Extraction。 研究对象-隐藏在半结构化数据中的模式和数据实体(Pattern, Entity)。 研究方法-词频统计、分类算法、机器学习、模式识别、元数据等。 广泛应用在Web信息的发现和信息管理。 WCM应用领域 主题抽取和文本分类 半结构查询语言与模式抽取(Lorel,DIPRE迭代算法等) Web异构数据集成 学习模式或规则 基于特定知识领域的信息发现 …... WCM目前研究情况 使用基于词频统计的算法,如使用VSM的TDIDF方法。 利用Wrapper进行Web信息抽取。缺点:需要事先知道数据表达方式。 Nicholas Kushmerick提出的自动Wrapper生成。 WCM目前研究情况(续) Sergey Brin-DIPRE首次利用迭代方法发现数据实体间的模式和关系,并成功的发现了作者/作品数据对。 Snowball-改进DIPRE算法,引入了模式置信度评估元组质量。 WCM目前研究情况(续) WCM目前研究情况(续) IBM Neel Sundaresan等在基于Web的单词/缩写的挖掘中,把2级的二元性问题扩展为n级,并实现用户英文单词简称的抽取。 IEPAD通过分析Web页面中的HTML标签的重复规律,进行模式挖掘并生成数据抽取规则。IEPAD使用了PAT数据结构实现最大模式对的发现和校验。 WCM目前研究情况(续) J. Hammer等利用了Stanford大学提出的对象交换模型(Object Exchange Model, OEM)模型,定义了抽取器规范并对对HTML文档中的天气预报信息进行了提取。 Dayne Freitag研究了使用机器学习算法进行HTML查询的方法。它提出了一个基于关系学习(Relational Learning)机器学习算法SRV将输入的自由文本转换成一定的规则。 WCM目前研究情况(续) Kristie Seymore使用HMM从训练样本中检查有标记和无标记的数据,并从数据中获得模型结构。通过运用Viterbi算法,HMM可以找到产生最大观测
显示全部