CVPR 2019: 光电+AI!合刃科技提出非视距物体识别技术

试想一下,此时你正戴着耳机,全神贯注的“吃鸡”,马上就到了拐角处,你习惯性的放慢了脚步……你是一只老鸟,没有听到声响反而让你变的更加警觉,会不会在转角侧正有一个人在潜伏着,默默地注视并等待着你?要是有个外挂可以识别盲区该多好啊……然而,使用外挂是违规的,不过这项黑科技在现实中已经存在了。

作为计算机视觉领域的顶级会议,今年的CVPR收录了一篇于非视距物体识别技术的亮点论文,作者来自合刃科技,让这个场景可能成为现实。这篇论文介绍了基于相干光的散斑特性来实现非视距物体识别的技术。

【基于相干光散斑的非视距物体识别】

在自动驾驶、安防监控及其他领域,遮挡物和非视距成像区域的目标监测一直是个难以解决的问题,比如摄像头无法捕获被遮挡角落的危险行为,自动驾驶的传感器无法实时探测到拐弯处车辆和行人,无法感知被前方车辆遮挡处的行人突然横穿危险行为等。

而这篇论文中提出的非视距物体识别技术,就是利用光的相干性从微弱的反射光信号中获取光场相位信息,结合深度学习的人工智能算法,实现对障碍物后面的物体的实时识别。相干光的传输矩阵具有幺正性,经粗糙表面反射后干涉形成的散斑分布包含了光的相位信息,可以极大地降低矩阵求逆的难度;结合深度神经网络对散斑图像进行采集训练分析,可以实现对被遮挡物的高精度识别。

研究人员通过仿真和实验验证了障碍物后面的LCD数字变化的实时读取。

在普通房间中放置了一块小LCD屏幕,实时显示数字变化,在旁边放入视觉传感器,同时面对挡板,并在他们之间加上不透明的障碍物。视觉传感器只能采集到挡板上漫反射的光。

研究人员采用了一台两百万像素的CMOS相机完成这个实验,采购成本不超过2万人民币,远低于采购用于探物的脉冲激光相机所需成本。

LCD屏幕上实时显示的是经典的MNIST手写数据集,当携带MNIST数字信息的相干光经过挡板漫反射后,形成散斑图。如下图所示,分别是数字0-9及其对应的散斑图。由于散射和干涉的作用,所有的图像都布满散斑。

所有的数据(散斑图)经过预处理后结合AI算法,实现障碍物后面的数字变化的实时识别。散斑图像的任一部分都包含了整个被识别物体的信息,因此,即使是散斑图的很小的一个部分,也可以用来进行物体识别。也就是说,散斑图像不同大小的裁剪和图像的不同位置,并不影响最终的识别效果。

 

为充分探寻该方法的适用性,研究人员还针对不同场景进行了实验。包括经过一面墙反射的散斑识别,经过两面墙反射的散斑识别,经过旋转墙反射的散斑识别,以及光源和视觉传感器位于同侧的散斑识别。所有实验的平均识别准确率高达91%以上。如下表是每个实验的具体识别率。

 

数字还远远不够,该论文还验证了障碍物后的人体姿态识别。如下图为12个人的同一个姿态对应的各自散斑图,可以看出,人体姿态识别包含了更多的复杂特征。即使是同一个动作,不同的人也会有显著差异。但是通过相应的AI算法,可以从散斑图像中提炼出隐含的相同特征,从而实现姿态的识别。

 

下图为同一个人展示的10种不同的姿态,及其对应的散斑图。区分不同散斑图的特征,可以实现不同姿态的识别。

 

通过深度学习的AI算法处理,以11个人的姿态作为训练样本,剩下的1个人做测试,遍历12个人(12次实验),得到的平均识别准确率为78.18%,高于现有的3姿态识别的论文报道的准确率76.6%。10个不同姿态的混淆矩阵如下:

 

该姿态识别的研究,在安防监控领域有广泛应用场景。比如识别被遮挡角落的危险行为,包括打架斗殴或其他有危险性的动作、军事及反恐行动中环境隐藏侦查,以及消防救援时获取屋内被困人员的信息等。

被遮挡角落的危险行为检测示意

【相关研究】

该论文的方法跟其他的非视域识别相比,有不少优势。

比如熟知的TOF(Time of Flight)飞行时间法。虽然TOF方法对非视域物体的重构精度能达到厘米量级,但是在实际应用中需要昂贵的设备,比如单光子探测器和纳秒脉冲激光(价值几十万人民币)。而这篇论文的方法只需要普通激光器和CMOS图像传感器,具有普遍适用性。

另外,合刃科技此次论文中采用的是非成像识别方法,比成像识别具有更好的简易型和鲁棒性,无需昂贵的成像设备,算法中也无需复杂且耗时的图像重构,从而具有更好的适用性和普遍推广性。TOF方法一次数据采集和图像重建需要数分钟,但是该论文的方法用时不到一秒。当然,该论文的方法也有需要改进的地方,比如外界干扰(振动等)可能引起散斑图的漂移,从而降低识别准确率。另外,经过多次漫反射后,光强会减弱,从而降低信噪比和识别准确率。因此,为提高非视距物体识别效果,后续需要更稳定的硬件和更优化的深度学习算法。

【未来】

在此次论文提出的非视距物体识别技术之外,合刃科技还致力于全息全频机器机器视觉系统的研发和商业化。

全息全频机器机器视觉系统从数据采集端进行重新设计,应用了先进的集成光学技术,颠覆性的对CMOS图像传感器进行纳米结构升级,结合AI算法,软硬件一体化采集多个维度的光学信息,实现传统视觉传感器和人类视觉所无法完成的多维度全息图像信息采集。全面提升视觉识别性能,扩展多种特殊应用场合。

可以进行障碍物体识别、雨雾环境等恶劣环境的物体识别、黑色、白色等背景色的物体识别、不明显的瑕疵识别,解决拍照遭遇反光、对玻璃的无法拍照、光谱不够多等目前计算机视觉领域的常见问题,技术将应用于智能制造、安防、无人驾驶辅助驾驶、智能穿戴设备等多个领域。

光是一种电磁波,有很多的特征物理量,包含相位、光强、光谱、偏振、方向等信息。传统的计算机视觉仅用到了光强信息,这就导致了原本丰富信息其实并未得到充分利用,这也将最终影响到识别的边界和效果。

而此次论文提出的非视距物体识别技术,在此基础上仅增加了对相位信息的收集与利用,便能够创造出如此丰富的应用场景,解决多个领域里的难点痛点。随着我们对“光”的进一步探索,对更多的物理量进行获取与计算,必然能打破识别边界。

光电+AI,这个世界远比我们能够看到的更加丰富多彩。