最先进的机器学习算法可以从照片中提取二维物体,并在三维中忠实地呈现它们。这种技术可以适用于增强现实的应用程序、机器人以及导航,因此它成为Facebook的一个重要研究领域。
在近日于首尔举办的国际计算机视觉会议(ICCV)之前,Facebook在一篇博客文章中强调了其在智能内容理解方面的最新进展。据透露,它的系统甚至可以用来检测复杂的前景和背景对象,如椅子腿或重叠的家具。
“我们研究的最新进展是建立在利用深度学习来预测和定位图像中的物体,以及用新的工具和架构来理解三维形状,如体素、点云和网格,”Facebook的研究人员Georgia Gkioxari、Shubham Tulsiani和David Novotny在一篇博客中写道。“三维理解将在提高人工智能系统,更贴近地理解、解释和操作现实世界的能力方面发挥核心作用。”
其中一个亮点是Mesh R-CNN,这是一种能够从杂乱和遮挡物体的图像中预测三维形状的方法。
Facebook的研究人员表示,他们在开源的Mask R-CNN的二维目标分割系统上增加了一个网格预测分支,并使用一个包含高度优化的三维操作符的库(Torch3d),来进一步支持该系统。Mesh R-CNN有效地利用了Mask R-CNN对图像中不同的物体进行检测和分类,然后利用上述的预测器对三维形状进行推断。
Facebook表示,在公共可用的Pix3D语料库上进行评估后,Mesh R-CNN成功地检测到所有类别的物体,并在家具场景中估计它们的完整三维形状。在一个单独的数据集上(ShapeNet),Mesh R-CNN比之前的研究有7%的相对优势。
Facebook开发的另一个系统是Canonical 3D Pose Networks,简称为C3DPO,解决了网格和相应图像无法用于训练的情况。建立三维关键点模型重建,利用二维关键点监控实现最先进的重建结果。(这里的关键点指的是被跟踪的物体部分,它们提供了一组关于几何图形及其视角变化的线索。)
C3DPO利用重建模型预测相应摄像机视点参数和三维关键点位置。辅助组件与模型一起学习,以解决在分解三维视点和形状时引入的模糊性。
Facebook指出,这种重建在以前是可以实现的,部分原因是内存限制。C3DPO体系结构可以在硬件无法捕获的情况下进行三维重建,比如对大型的对象。
“(三维)计算机视觉有许多开放的研究问题,我们正在试验多种问题陈述、技术和监督方法,以探索推动该领域向前发展的最佳方式,就像我们在二维理解领域所做的那样,”Gkioxari、Tulsiani和Novotny表示。“随着数字世界适应并转向使用3D照片、沉浸式AR和VR体验等产品,我们需要不断推动复杂的系统更准确地理解视觉场景中的对象并与之互动。”