机器视觉及其应用.doc
文本预览下载声明
最新精品文档,知识共享!
机器视觉及其应用
一、机器视觉的研究内容
人们从外界环境获取的信息中, 80% 来自于视 觉。人们的眼睛从自己周围的环境获取大量信息, 并 传入大脑后, 由大脑根据知识或经验, 对信息进行加 工、推理等处理工作, 最后识别、理解周围环境, 包括 环境内的对象物。机器视觉就是用计算机模拟人眼的 视觉功能, 从图象或图象序列中提取信息, 对客观世 界的三维景物和物体进行形态和运动识别。机器视觉 研究的目的之一就是要寻找人类视觉规律, 从而开发 出从图象输入到自然景物分析的图象理解系统。
对于机器视觉系统来说, 输入是表示三维景物投 影的灰度阵列, 可以有若干个输入阵列, 这些阵列可 提供从不同方向、不同视角、不同时刻得到的信息。希 望的输出, 是对图象所代表景物的符号描述。通常这 些描述是关于物体的类别和物体间的关系, 但也可能 包括如表面空间结构、表面物理特性( 形状、纹理、颜 色、材料) 、阴影以及光源位置等信息。目前许多机器 视觉专家都是在马尔( M ar r) 创立的视觉计算理论框 架下求索。本世纪 70 年代中后期, 英国的 M arr 教授 应邀在美国麻省理工学院的人工智能实验室创建并 领导一个以博士生为主体的研究小组, 从事视觉理论 方面的研究, 逐步形成关于视觉的计算理论。Marr 认 为, 视觉可分为三个阶段 ( 图 1) 。第一阶段是早期视 觉( early v ision) , 其目的是抽取观察者周围景物表面 的物理特性, 如距离、表面方向、材料特性 ( 反射、颜 色、纹理) 等, 具体来说包括边缘检测、双目立体匹配、 由阴影确定形状、由纹理确定形状、光流计算等; 第二 阶段 是二维半简图 ( 2. 5D sket ch) 或本征图象( Int rinsic Im ag e) , 它是在以观察者为中心的坐标系 中描述表面的各种特性, 根据这些描述, 可以重建物 体边界、按表面和体积分割景物, 但在以观察者为中 心的坐标系中只能得到可见表面的描述, 得不到遮挡 表面的描述, 故称二维半简图; 第三阶段是三维模型(视觉信息处理的最后一个层次) , 是用二维半简图中得到的表面信息建立适用于视觉识别的三维形状描 述, 这个描述应该与观察者的视角无关, 也就是在以物体为中心的坐标系中, 以各种符号和几何结构描述 物体的三维结构和空间关系。
二、机器视觉与人类视觉的差异
对于人的视觉来说, 由于人的大脑和神经的高度 发展, 其目标识别能力很强。但是, 人的视觉也同样存 在障碍, 例如即使具有一双敏锐视觉和极为高度发达 头脑的人, 一旦置于某种特殊环境 ( 即使曾经具备一 定的先验知识) , 其目标识别能力也会急剧下降。事实 上人们在这种环境下面对简单物体时, 仍然可以有效 而简便地识别, 而在这种情况下面对复杂目标或特殊 背景时, 则在视觉功能上发生障碍, 两者共同的结果 是导致目标识别的有效性和可靠性的大幅度下降。 将人的视觉引入机器视觉中, 机器视觉也存在着这 样的障碍。它主要表现在三个方面: 一是如何准 确、高速( 实时) 地识别出目标; 二是如何有效地增大存储容量, 以便容纳下足够细节的目标图象; 三是 如何有效地构造和组织出可靠的识别算法, 并且顺利 地实现。前两者相当于人的大脑这样的物质基础, 这 期待着高速的阵列处理单元, 以及算法( 如神经网络、 分维算法、小波变换等算法) 的新突破, 用极少的计算 量以及高度地并行性实现其功能。为了便于理解, 现 将人的视觉与机器视觉对比列于表 1、表 2。
三、机器视觉研究现状与展望
( 1) 传统的通用视觉模型
传统的通用视觉模型是以 M arr 视觉理论为框 架的。近 30 年来, M arr 视觉计算理论取得了巨大成 功, 包括计算理论层上发现了许多重要的基本约束, 数据结构算法层上发展了各种算法以及建立起一些 早期视觉的实验系统等, 但它也存在着一定的问题。
Mar r 理论认为视觉任务是由 2D 图象恢复 3D 场景, 而由于成像过程中存在投影、遮挡、各种场 景因素的混合、畸变和噪声等, 使作为成像过程逆过 程的视觉过程不适应, 且极为困难, 而且由于真实世 界极为复杂, 要想通过高度结构化的表示获得 3D 模 型的客观描述是很困难的。此外, 近年来很多人认为 视觉任务并不总以恢复 3D 场景为目标, 很多情况下 并不需要建立 3D 模型。
M ar r 框架立足于建立通用视觉模型, 尤其在 视觉处理早期, 基本不针对具体问题, 为保证通用性 而采用一些简单的假设和基本的约束, 例如认为场景 由规则表面构成, 即满足平滑性约束等。
M ar r 框架强调表示而不是过程, 而后者允许 在完成相同的视觉处理任务的前提下由一种表示变 成
显示全部