目录

立体视觉 3D Vision

随着信息时代各行各业对立体数据需求的快速增长,立体视觉数据的应用日趋广泛,通过点云、网格、体素及视图等多模态数据进行立体场景的表示,其研究在机器人自主导航、航空及遥感测量、工业自动化系统等领域具有重要应用价值。在立体视觉领域,本实验室主要关注于立体数据的获取与增强、立体视觉表示、检索与识别等研究内容。

1.立体数据获取与增强

立体数据的获取与增强主要通过获取目标场景或物体的深度信息,形成点云数据,实现场景的三维建模。点云作为视觉环境表示的基本模态,可以通过激光雷达等硬件设备直接采集,在各个领域均具有广泛的应用。但受到采集设备的性能限制,高密度、高精度的点云数据通常难以在常规场景下获得。因此,如何在现有设备约束的前提下,基于相对低密度、低精度的点云数据进行立体数据的增强已成为一个日益重要的问题。然而,由于点云数据自身的无序特性,使得这个问题极具挑战性。为了解决这个问题,我们提出了一种跨模态点云增强框架,即基于视觉信息的点云增强。在该框架中,我们设计了一种适用于点云增强的对抗式结构,使用单视角视图用作辅助输入,用于增强点云数据。通过多阶段嵌入式融合机制将两种模态的高阶特征注入低阶特征,利用低阶特征所表达的几何信息和高阶特征所表达的语义信息进行数据增强。该方法能够从点云、像素级别进行多模态数据(点云与视图)的冲突消解及增强。针对跨模态的立体数据增强任务,基于ShapeNet数据集我们构建了一个新的大型立体残缺数据集。该数据集由2087K+个不完整的点云和1043K+个完整的点云组成,同时包含13个类别35658个对象的多角度视图。下图给出了基于视图的残缺点云增强效果,从图中可以看出该框架能够有效增强原始残缺点云数据。

图1 基于视图的残缺点云增强

2.立体视觉表示

2.1.基于多视图的立体视觉表示

二维图像是立体世界在人眼中的表征方式,既可以通过立体对象的多个投影视图、也可以通过真实对象不同角度拍摄得到的照片进行对象描述。早期的基于多视图的立体对象表示方法多需要预设固定的视图获取角度及数量,对实际应用造成了极大的限制。。为提高立体视觉应用中的模型通用性,针对基于多视图的立体内容表示,提出了“视图-视图组-模型”三层架构模型,通过视图的辨识能力进行分组,从而弱化具体视图在立体对象的表示作用,形成相对更加鲁棒的表示效果。图2给出了基于视图组神经网络模型的立体对象表示示意图。

图2 基于视图组神经网络模型的立体对象表示示意图

2.2.基于点云的立体视觉表示

点云是用于表示多维点集的数据结构,可通过激光雷达等硬件设备进行采集。点云数据具有无序性,在实际应用中也面临对象数据的排列变化、旋转等问题。因此,点云数据表示需要具备排列不变性和旋转不变性。针对点云数据表示的旋转问题,如图3所示的旋转点云,我们提出了旋转不变点云表示方法。为了实现点云数据的旋转,首先寻找点云的旋转等价类,通过SO(3)群的参数表示,我们在点云等价类中找到最佳旋转表示,实现点云的旋转不变性。当点云数据具有旋转角度时,该方法可以直接处理旋转数据,效果等同于处理旋转对齐数据,实现了点云数据表示的旋转不变性。

图3 原始点云(灰色)与旋转后的点云数据(蓝色)

2.3.基于网格的立体视觉表示

网格数据是一系列点、边、面的集合,不同元素间连接关系复杂,元素数量不固定且无序,由此带来的复杂性和不规则性都为基于网格数据的立体视觉表示带来了困难。针对网格表示的难题,我们提出了网格神经网络模型(MeshNet),基于网格数据进行立体对象表示。该方法以面为单元的特征表示方法,通过逐面处理和全局池化的方法解决网格无序性问题,并将面的特征划分为空间特征和结构特征,并提出了用于扩大感受区域的网格卷积结构,从而解决网格数据的复杂性和不规则性问题,获得精确的立体数据表示。图4给出了通过网格神经网络获得的网格数据的显著性特征区域。从图中可以看出,对立体对象表示具有较重要内容的部分,如飞机的机翼、机尾等区域,均已被显著标记。

图4 基于网格神经网络获取的网格数据显著性特征区域

2.4.基于多模态的立体视觉融合表示

不同模态的立体数据具有各自的特性,同时也具备一定的局限性。因此,融合多模态数据进行立体视觉的融合表示具有重要意义。针对这一问题,我们提出点云与视图数据融合的立体视觉表征学习方法。点云在局部特征表示方面具有较好性能,但是缺乏局部特征的可辨别能力,而不同的局部特征在表征物体时重要程度不同。因此,我们引入视图的全局特征,与点云的局部特征融合得到注意力掩膜,用于表征不同局部特征的重要性,并将注意力掩膜以残差连接的方式对点云特征进行增强。最后,增强后的点云特征和多视图特征融合为立体对象的统一表征。图5给出了融合点云和视图特征的立体对象的注意力掩膜示意图。

图5 融合点云和视图特征的立体对象的注意力掩膜示意图

虽然在特征层面进行点云与视图融合能够增强立体对象的表示能力,但是缺乏更精确的视图与点云的对应关系,从而限制了更加精细化的多模态融合性能。进一步,我们提出了一种点云与视图关联性学习的融合表示方法,建立点云与每个视图之间的关系,通过关系得分网络学习每个视图与点云的关系分数,在数据融合时更加侧重相关性更强的视图数据,实现多模态的数据融合表示。图6给出了通过该方法计算所得的点云与视图的关系对应示意图。

图6 点云与视图的关系对应示意图

2.5.立体数据无序表示

在实际应用中,许多立体数据,例如点云、网格和视图,都是不规则和无序的。针对这些非标准立体数据,传统的立体视觉表示方法采用经典卷积或池化方法,分别具有各自的局限性。经典卷积可以更好地利用网格中表示的数据的空间局部相关性,但可能导致形状信息的导致和数据顺序的变化;池化方法可以聚合局部特征并保持置换不变性,但忽略局部区域中的立体视觉数据之间的相关性。

为了解决这个问题,我们提出了一种无序关联卷积(Relation Convolution UR-Conv),将类似卷积的操作应用于无序的3D数据,并且对输入数据的顺序不敏感。该方法捕获了数据之间的局部依赖性,增强了模型的表示能力和鲁棒性。UR-Conv可以使用不同的模态并轻松集成到现有的立体数据处理方法中,具有极佳的可应用性。图7给出了UR-Conv的流程示意。

图7 UR-Conv的流程示意图

3.立体视觉对象检索

针对大规模立体视觉数据的检索需求,需要设计面向立体视觉数据索引方法。考虑到立体视觉数据的多模态特点,我们设计了HESNet,实现了在多视图空间和网格空间下的统一哈希码生成,获得了精确的立体视觉对象的检索性能。图8给出了该多模态立体视觉数据索引的示意图。

图8 多模态立体视觉数据索引示意图

传统的多模态信息融合方法从各个模态中分别提取的特征的关联性较低,且常用的利用注意力机制来学习多模态特征融合的联合深度网络模型的泛化能力较弱。为了解决这些问题,我们提出了一种新颖的基于汉明嵌入灵敏度算法和数据隐藏模块的多模态特征融合网络HESNet,实现有效的、更通用的多模态立体视觉深度特征融合。数据隐藏模块的基本思想,是在融合的早期阶段,通过汉明嵌入来重新加权每个模态的特征,随后应用二进制代码片段直方图的直方图交集来计算汉明嵌入灵敏度。图9给出了汉明嵌入灵敏度的计算流程示意。

图9 汉明嵌入灵敏度计算示意图

论文列表

Zhengyue Huang, Zhehui Zhao, Hengguang Zhou, Xibin Zhao, Yue Gao.
DeepCCFV: Camera Constraint-Free Multi-View Convolutional Neural Network for 3D Object Retrieval.
AAAI, 2019.
[paper]

Yutong Feng, Yifan Feng, Haoxuan You, Xibin Zhao, Yue Gao.
MeshNet: Mesh Neural Network for 3D Shape Representation.
AAAI, 2019.
[paper]

Jianwen Jiang, Di Bao, Ziqiang Chen, Xibin Zhao, Yue Gao.
MLVCNN: Multi-Loop-View Convolutional Neural Network for 3D Shape Retrieval.
AAAI, 2019.
[paper]

Haoxuan You, Yifan Feng, Xibin Zhao, Changqing Zou, Rongrong Ji, Yue Gao.
PVRNet: Point-View Relation Neural Network for 3D Shape Recognition.
AAAI, 2019.
[paper]

Minjie Cai, Feng Lu, Yue Gao.
Desktop Action Recognition from First-Person Point-of-View.
IEEE Transactions on Cybernetics, 2018.
[paper]

Yifan Feng, Zizhao Zhang, Xibin Zhao, Rongrong Ji, Yue Gao*.
GVCNN: Group-View Convolutional Neural Networks for 3D Shape Recognition.
CVPR, 2018.
[paper]

Guanglin Xu, Shaoyi Du, Dixiao Cui, Sirui Zhang, Xuetao Zhang, Jianru Xue, Yue Gao.
Precise Point Set Registration Using Point-to-Plane Distance and Correntropy for Lidar Based Localization.
IEEE Intelligent Vehicles Symposium, 2018.
[paper]

Haoxuan You, Yifan Feng, Rongrong Ji, Yue Gao.
PVNet: A Joint Convolutional Network of Point Cloud and Multi-View for 3D Shape Recognition.
ACM Conference on Multimedia, 2018.
[paper]

Zizhao Zhang, Haojie Lin, Xibin Zhao, Rongrong Ji, Yue Gao.
Inductive Multi-Hypergraph Learning for View-Based 3D Object Classification.
IEEE Transactions on Image Processing, 2018.
[paper]

Xibin Zhao, Nan Wang, Yubo Zhang, Shaoyi Du, Yue Gao, Jiaguang Sun.
Beyond Pairwise Matching: Person Re-identification via High-Order Relevance Learning.
IEEE Transactions on Neural Networks and Learning Systems, 2017.
[paper]


© Copyright 2018-2020, iMoon-Lab @ Tsinghua University.

iMoon: Intelligent Media and Cognition Lab

School of Software
Tsinghua, Beijing 100084
Directions

Copyright

All Rights Reserved.