多媒体搜索引擎-FirstCloudIT.ppt
文本预览下载声明
Multimedia Search Engine 多媒体搜索引擎 多媒体文档内容理解技术(2) 图像分割 对象分割 把图像分割成有独立语义的区域 ?如何描述区域的语义? 图像分割 视频分割(shot detection) 视频是图像的时间序列 在时间轴上应该分割成小的单元 镜头:摄像机从打开到关闭所拍摄的一段视频 镜头边界:两个镜头之间的边界 镜头分割:分析视频,标记镜头边界 视频分割 镜头分割 镜头边界种类 突变:前后帧分属不同镜头 渐变:存在几个过渡帧 视频分割 镜头分割 基本原理:比较一定距离的两帧差异,大于阈值则为镜头边界 特征提取 特征 可以表示图像区域的某方面特性的量 像素 颜色,纹理,形状 位置,大小 分类 …… ?如何提取?如何表示? 用数学模型表示特征量的方法 从原始像素转换成特征量的算法 特征提取 特征 要求1:尽可能多地保留需要的信息 要求2:尽可能少地保留噪声 要求3:维数尽量低 运算量小 鲁棒性好 算法容易设计 特征提取 像素特征 直接用像素的颜色值表示特征 实现简单 信息质量差 仅包含单个像素的信息 同时包含需要的信息和不需要的噪声 难以表示全局信息 后续分类和处理困难 特征提取 颜色特征 颜色是人眼非常敏感的特征 如何提取和表示颜色特征? 平均颜色 把所有像素的颜色值当作矢量,计算所有像素的颜色矢量的算术平均 特征提取 颜色特征 颜色矩 如果把像素看成随机变量,则其分布特性可以由矩来描述 一阶矩(均值): 二阶中心矩(标准差): 三阶中心矩: 维数低,易于计算 信息量少,对噪声敏感 特征提取 颜色特征 颜色直方图 直方图:概率密度函数 颜色:三维?如何统计直方图? 方法1:三维颜色直方图 直方图的每个槽对应一组(R,G,B)矢量值 RGB均0~255?直方图有256*256*256=16M个槽 ?图像像素数:704*576=405K, 1920*1080=2M ?统计直方图需要使用较粗的量化 一般量化成16级 ?16*16*16=4096个槽 维数仍然很高 特征提取 颜色特征 颜色直方图 方法2:三个一维直方图 对R、G、B三个颜色分别统计一个直方图 不进一步量化:256+256+256=768维 每种颜色量化成16级:16+16+16=48维 优点:维数大大降低 缺点:颜色之间的相关信息丢失 在较独立的颜色空间统计(如:YUV,HSI) 亮度统计一维直方图,色度统计二维直方图 直方图的维数仍然较高 特征提取 颜色特征 聚类颜色直方图 普通颜色直方图不管图像本身的颜色分布,整个颜色空间的所有颜色都是直方图的槽 维数高 必须覆盖整个颜色空间 精度差 对颜色空间的机械分割 为了在合理的维数内实现,颜色空间的划分很粗 ?利用图像本身的像素进行聚类,用聚类中心作为直方图的槽 不同图像的直方图各维没有统一的物理含义 特征提取 纹理特征 纹理:临近像素的变化趋势和模式 一定尺度内的一种分布模式 可以是固定的模式:如砖墙 可以是概率的模式:如草地 与像素的绝对颜色/亮度关系较小 与颜色/亮度差异关系大 特征提取 纹理特征 灰度共生矩阵 两个有固定空间关系的像素的联合概率密度函数 特征提取 纹理特征 灰度共生矩阵 超高的维数 空间关系有很多个 每个空间关系有一个二维直方图 ?在这些二维直方图上作“二次统计”以降低维数 角二阶矩(能量)、对比度(惯性矩)、相关、熵、逆差矩等 与人类视觉对纹理的心理感知不同 特征提取 纹理特征 Tamura 纹理特征 依据心理视觉特性定义的纹理特征 计算准确率较差,信息量较少 特征提取 纹理特征 频率域的纹理特征 纹理是“变化趋势和模式” 在某个频率上有突出的特征 ?利用频率变换表示纹理特征 小波纹理特征 对图像作小波变换 计算小波的一阶矩和二阶矩作为纹理特征 特征提取 纹理特征 频率域的纹理特征 局部傅立叶变换纹理特征 在局部邻域(3x3, 4x4, 5x5…窗口)内作傅立叶变换,用傅立叶系数作为纹理特征 Gabor变换 频率空间中的局部区域特征 特征提取 纹理特征 频率域的纹理特征 Gabor变换 频率空间中取某个窗口内的系数来提取特征 特征提取 形状特征 面积(A)、周长(P)、质心(O) 长度(L)、宽度(W) 特征提取 形状特征 矩形度:面积和最小外接矩形面积的比值 长宽比:L/W 圆度: 欧拉数 拓扑特征 难以精确提取 特征提取 形状特征 轮廓的高维特征 把轮廓坐标转换成一维复数序列?一维复函数 ?可以进行傅立叶变换,提取频率特征 ?傅立叶描述子 特征提取 多模特征(multi-modal feature) 单一特征难以保留足够信息 仅能保留特征所针对的信息 ?结合多个特征,以保留更多信息 颜色、纹理、形状 维数显著增加 ?特征降维 特征选取(Feature
显示全部