CoReNet: Coherent 3D scene reconstruction from a single RGB image

时间：2020年

作者：Stefan Popov ，Google Research etc.

Abstract

基于仅给定一个RBG图像作为输入，重建单个对象的形状任务的通用编码器-解码器体系结构，文中提出了三个扩展：

1.光线跟踪跳过连接以物理正确的方式将局部二维信息传播到输出三维体；因为可见的物体部分可以直接从图像中提取信息，所以它们会生成清晰的重建细节；

2.一种混合3D体积表示法，能够构建平移等变模型，同时编码精细的对象细节，而不会占用过多内存；

3.为捕获整个对象几何体而定制的重建损失。

Introduction

(1)光线跟踪跳过连接允许模型将二维图像上检测到的遮挡边界和对象接触点传播到三维，并且还可以局部了解对象之间的深度关系。

(2)IoU(intersection-over-union)损失使我们的模型输出在3D空间中不重叠的紧凑对象重建。

(3)混合体表示提供了精细的离散化分辨率，与单个对象的情况相比，它可以补偿分配给每个对象的场景体积的较小部分。

Method

1.3D volume representation

(1)基于隐式体积表示法的模型可以通过调节从图像中提取的代码来进行重建，但在设计上不是平移等变的。

(2)基于体素网格表示的模型本质上是卷积的，因此满足了我们的平移等变要求，但是需要过大的内存去以精细的分辨率表示大型场景。

(3)我们通过一种新的混合体表示和基于它的模型体系结构来满足这两个需求。此表示结合了体素栅格和隐式体积的优点。规则的网格结构允许仅使用标准的3D卷积构建块构建设计上平移等变的完全卷积模型。可变栅格偏移允许以任何所需分辨率（模型栅格分辨率的倍数）重建输出体的常规采样，同时保持模型内存占用不变。

2.Core model architecture

模型构建在编码-解码结构上，自定义解码器将标准ResNet-5编码器的输出转换为W×H×D×C输出张量–输出网格中每个点在C个可能类上的概率分布。解码器的操作在放大（使用转置的3D卷积，步幅大于1）和数据混合（使用3D卷积，步幅大于1）之间交替进行，同时保持分辨率。

3.Ray traced skip connections

我们将We×He×Ce编码器层当作被相机拍摄到的带有Ce个通道的We×He图片，我们将Wd×Hd×Dd×Cd解码器层视为点的Wd×Hd×Dd网格。我们将解码器点投影到编码器图像上，然后在生成的2D坐标处对其进行采样，最后将采样数据传送到3D解码器。这将以光线的形式创建跳过连接，光线从摄影机图像平面开始，穿过摄影机针孔并在解码器网格点结束。我们以这种方式将多个解码器层连接到编码器，通过使用1×1卷积将预先的信道计数减少到0.75·Cd。

Decoder grid offset

我们选择表示网格点之间的距离，选择表示网格偏移。这使得解码器网格占用与最终输出网格相同的空间，并以类似的方式响应偏移量的变化。反过来，这有助于隐式体积重建。

4.IoU loss

i为在网格中循环的点，

∈ {0，1}是地面真值标签的独热编码，指示点i是否属于c类，

∈ [0，1]是预测概率。

为因多个类别而产生的稀疏性平衡，如C− 1在GT独热编码的值将为0。

5.Mesh reconstruction

提取网格，我们将离散化分解为nW×nH×nD形状的C切片，每个类一个。我们在每个切片上独立运行阈值为0.5的marching cubes，并输出网格，与void类对应的切片除外。0.5阈值强制执行空间排除，因为概率分布中最多有一个值可以大于0.5。

更多推荐

CoReNet: Coherent 3D scene reconstruction from a single RGB image