光学（3D）三维视觉成像技术原理

2025-01-11 派大星

三维视觉成像作为当前工业视觉信息感知的核心技术，随着工业4.0时代的临近，3D视觉成像在制造业的热度也愈加高涨，下面我们将通过三种常见的三种光学三维视觉成像技术为大家做一个简单的介绍！

光学（3D）三维视觉成像技术原理

飞行时间法（通过光线的时间差恢复深度）

飞行时间（Time of Flight，ToF）3D成像是一种通过给测量光脉冲从发射到接收所需的时间差来获取深度信息的技术，目标连续发送光脉冲，然后用传感器接收从物体返回的光，通过探测光脉冲的飞行（往返）时间来得到目标物距离的一种成像技术。根据测距方式的不同，还可以分为直接测量飞行时间（D-ToF）和间接测量飞行时间（I-ToF）。

直接测量飞行时间（D-ToF）通过向被测物体发射和接收N次光信号，然后对接收到的光信号的飞行时间进行直接统计，其中出现频率最高的飞行时间被用来计算被测物体的景深。DTOF测量的是发射脉冲和接收脉冲之间的时间间隔。

直接测量飞行时间（D-ToF）

计算公式为：测量距离=(光子传播时间/2)*光的速度

间接测量飞行时间（I-ToF），全称indirect Time of Flight，即iTof是通过测量相位偏移来间接测量光的飞行时间，而非直接测量飞行时间。大多数ITOF间接测量方案使用测量相位偏移的方法，即发射正弦波/方波和接收正弦波/方波之间的相位差。

间接测量飞行时间（D-ToF）

相位到距离深度计算公式为：

滤光片

C:光的速度。

fm:设制频率。

在测量精度上，dTof的测量精度不会随着测量距离的增大而降低，iTof的测量精度会受到测量距离的影响。在功耗上，由于dTof采用脉冲波，能够达到超低占空比，所以功耗低。而iTof随着测量距离的增大，需要提高光照功率或者延长曝光时间来获取更高的精度，因此所需的功耗也会大幅增加。整体而言，TOF成像的特点是检测速度快、视场大、工作距离远，价格相对便宜，但精度不尽如人意，易受环境光线的影响。

结构光法（散斑投射）

结构光法是目前运用最广泛的一种视觉成像技术，也是目前是机器人3D视觉感知的主要方式，适用于各种表面纹理的物体，测量精度较高。

结构光成像系统是由若干个投影仪和相机组成，常用的结构形式有：单投影仪-单相机、单投影仪-双相机、单投影仪-多相机、单相机-双投影仪和单相机-多投影仪等典型结构形式。常用的投影仪主要有下列几种类型：液晶投影（LCD）、数字光调制投影（DLP，如数字微镜器件（DMD）、激光LED图案直接投影。

原理：投影仪向目标物体投射特定的结构光照明图案，由相机摄取被目标调制后的图像，再通过图像处理和视觉模型求出目标物体的三维信息。根据结构光投影次数，可以分成单次投影3D和多次投影3D方法。

单次投影结构光主要采用空间复用编码和频率复用编码形式实现，常用的编码形式有：彩色编码、灰度索引、几何形状编码和随机斑点。目前在机器人手眼系统应用中，对于三维测量精度要求不高的场合，如码垛、拆垛、三维抓取等，比较受欢迎的是投射伪随机斑点获得目标三维信息。

单次投影结构光

多次投影3D方法主要采用时间复用编码方式实现，常用的图案编码形式有：二进制编码、多频相移编码τ35和混合编码法（如格雷码十相移条纹）等。

多次投影3D方法

条纹投影3D成像基本原理是利用计算机生成结构光图案或用特殊的光学装置产生结构光，经过光学投影系统投射至被测物体表面，然后采用图像获取设备（如CCD或CMOS相机）采集被物体表面调制后发生变形的结构光图像，利用图像处理算法计算图像中每个像素点与物体轮廓上点的对应关系；最后通过系统结构模型及其标定技术，计算得到被测物体的三维轮廓信息。

在实际应用中，常采用格雷码投影、正弦相移条纹投影或格雷码十正弦相移混合投影3D技术。

立体视觉成像

立体视觉成像是用一只眼睛或两只眼睛感知三维结构，通过从不同视点获取两幅或多幅图像，然后根据图像中的差异进行模型重建，从而得到目标物体的三维结构或深度信息。根据重建所需图像数量的不同，立体视觉法主要分为单幅图像法、基于双目视觉法以及多目立体视觉法。

单目视觉成像

单目视觉深度感知线索通常有：透视、焦距差异、多视觉成像、覆盖、阴影、运动视差等。在机器人视觉里还可以用镜像1，以及其他 shape from X10等方法实现。

双目视觉成像

双目视觉深度感知视觉线索有：眼睛的收敛位置和双目视差。在机器视觉里利用两个相机从两个视点对同一个目标场景获取两个视点图像再计算两个视点图像中同名点的视差获得目标场景的3D深度信息。

典型的双目立体视觉计算过程包含下面四个步骤：图像畸变矫正、立体图像对校正、图像配准和三角法重投影视差图计算。

双目视觉成像

多（目）视觉成像

也称多视点立体成像，用单个或多个相机从多个视点获取同一个目标场景的多幅图像，重构目标场景的三维信息。其基本原理如下图所示。

多（目）视觉成像

多视点立体成像主要用于下列几种场景：

1）使用多个相机从不同视点，获取同一个目标

场景多幅图像，然后基于特征的立体重构等算法求取场景深度和空间结构信息

2）从运动恢复形状（SM）的技术。使用同一相机在其内参数不变的条件下，从不同视点获取多幅图像，重构目标场景的三维信息。该技术常用于跟踪目标场景中大量的控制点，连续恢复场景的3D结构信息、相机的姿态和位置。

立体视觉成像最大的特点就是不需要额外的光源，传统的自然光就可以满足需求，应用广泛且抗干扰性强。但由于需要在多个相机之间建立点对点的对应关系，步骤相对繁琐，对于表面纹理不丰富的目标可能不够准确。

素材仅供学习--参考来源：机器人网、知乎大大通--

标签: 三维视觉成像

全套技术方案

全套技术方案

光学（3D）三维视觉成像技术原理