文档详情

数据挖掘概念与技术_原书第2版_PPT电子教案_11章_复杂数据类型的挖掘_挖掘对象、空间、多媒体、文本和Web数据.ppt

发布:2017-12-12约1.2万字共103页下载文档
文本预览下载声明
Chapter 10: 多维泛化 WSN Cloud 空间数据仓库中的维度度量 维度度量 非空间维度 e.g. 温度: 25-30 空间到非空间 e.g. 区域 “B.C.” 产生描述 “western provinces” 空间到空间 e.g. 区域 “Burnaby” 产生描述 “Lower Mainland” 度量 数值度量 分布 (e.g. count, sum) 代数 (e.g. average) 整体 (e.g. median, rank) 空间度量 采集空间点 (e.g. pointers to all regions with 25-30 degrees in July) 例子: BC weather 模式分析 输入 ??具有散射在B.C中的大约3,000 个气候探测器的地图 ??有关气温,降水,风速等日常数据 ??所有属性的概念层 输出 ??显示模式的地图: 合并(相似) 地区 目标 ??交互式分析(下钻,切片,切块,转轴,上卷) ??快速的响应时间 ??最小化使用的时间 挑战 ??一个合并的区域可能包含成百上千的“原始”地区 BC Weather空间数据仓库的星型模式 空间合并 空间数据立方体的计算方法 在线聚集: 收集和存储一个空间数据立方体中指向空间对象的指针,不预计算 ??昂贵且慢速,需要有效的聚集技术 ??OLAP,预计算和存储所有可能的合并 ??大的空间花销 ??预计算和存储空间数据立方体的粗略近似 ??公平的精确性 MBR ??选择性计算: 只物化那些频繁访问的 ??一个合理的选择 空间关联分析 空间关联规则形如: A?B[s%,c%] 其中A和B空间和非空间谓词的集合,s%表示规则的支持度,c%表示规则的的可信度。 例:Is_a(X,”school”)∧close_to(X, “sports_center”) ?close_to(X, “park”)[0.5%, 80%] 此规则表明80%靠近体育中心的学校同时也靠近公园,并且有0.5%的数据符合这一规则。 逐步求精挖掘空间关联规则 空间查询方法 Nearest Neighbor: Given a query point and a set of objects, find the nearest object to the query point. MBR、KNN与R-tree查询 时空数据库的查询方法 Skyline 空间聚类方法 空间数据聚类是要在一个较大的多维数据集中根据距离的计算找出簇,或稠密区域。 空间分类和空间趋势分析 空间分类指分析空间对象导出与一定空间特征有关的分类模式,如郊区,高速公路,河流的邻接。 空间趋势分析处理的是另一类问题:根据某空间维找出变化趋势 。 例如,当离城市中心越来越远时,我们要分析经济形势的变化趋势,或离海洋越来越远时,气候与植物的变化趋势。 Course Outline 复杂数据对象的多维分析和描述性挖掘 空间数据库挖掘 多媒体数据库挖掘 时序数据和序列数据的挖掘 文本数据库挖掘 Web挖掘 多媒体数据库挖掘 多媒体数据库是指存储和管理大量多媒体对象的数据库,如音频数据,图象数据,视频数据,序列数据,以及超文本数据,包含文本,文本标记(text markup),和链接(linkage)。 多媒体数据的相似搜索 主要考虑两种多媒体标引和检索系统: (1)基于描述的检索系统,主要是在图象描述之上建立标引和执行对象检索,如关键字,标题,尺寸,创建时间等;(2)基于内容的检索系统,它支持基于图象内容的检索,如颜色构成,质地,形状,对象,和小波变换等。 多媒体数据的分类和预测分析 多媒体数据中的关联规则挖掘 基于内容检索系统中的查询 基于图象样本的查询: 找出所有与给定样本相似的图象 把从样本中提取的特征向量和已经提取出并在图象数据库中已经索引过的图象特征向量比较 图象特征描述查询: 给出图象特征的描绘和概括,如颜色,质地,或形状,把其转化为特征向量 把此向量与数据库中已有的图象特征向量匹配 基于图象特征标志的几种相似检索算法 基于颜色直方图的特征标识 图象的特征标识包括基于图象颜色构成的颜色直方图,忽略了图象的尺寸或方位 没有关于形状,位置或纹理的信息 相似颜色构成的两幅图像可包含不同的形状质地 多特征构成的特征标志 包括多个特征的组成:颜色直方图,形状,位置质地 可以用于相似图片的搜索 小波分析 C-BIRD: 数字图书馆的基于内容的图象检索 多媒体数据库中的多维搜索 多媒体数据库中多维
显示全部
相似文档