当前位置：首页 > 创业科技 > 正文

NeurIPS 2023｜北京大学提出类别级6D物 *** 姿估计新范式，取得新SOTA

创业科技
2023-12-29
6
更新：2023-12-29 10:14:06

类别级 6D 物 *** 姿估计是一个基础且重要的问题，在机器人、虚拟现实和增强现实等领域应用广泛。本文中，来自北京大学的研究者提出了一种类别级 6D 物 *** 姿估计新范式，取得了新的 SOTA 结果，论文已被机器学习领域顶会 NeurIPS 2023 接收。

6D 物 *** 姿估计作为计算机视觉领域的一个重要任务，在机器人、虚拟现实和增强现实等领域有众多应用。尽管实例级别的物 *** 姿估计已经取得了显著进展，但它需要事先了解物体的特性，因此无法轻松适用于新的物体，这限制了其实际应用。为了解决这一问题，近年来，越来越多的研究工作集中在类别级别的物 *** 姿估计上。类别级别的位姿估计要求算法不依赖于物体的 CAD 模型，能够直接应用到与训练数据中相同类别的新物体。

目前，主流的类别级别 6D 物 *** 姿估计 *** 可以分为两大类：一是直接回归的端到端 *** ，二是基于物体类别先验的两阶段 *** 。然而，这些 *** 都将该问题建模为回归任务，因此在处理对称物体和部分可见物体时，需要特殊的设计来应对多解问题。

为了克服这些挑战，北京大学的研究团队提出了一种全新的类别级 6D 物 *** 姿估计范式，将该问题重新定义为条件分布建模问题，从而实现了最新的更优性能。他们还将这一 *** 成功应用于机器人操作任务，如在视频中展示的倒水等任务。

论文地址：https://arxiv.org/abs/2306.10531

图 1. 多解问题的来源：对称物体和部分观测

*** 介绍

那么如何应对上述多解问题呢？作者把该问题看作条件分布建模问题，提出了一种名为 GenPose 的 *** ，利用扩散模型来估计物 *** 姿的条件分布。该 *** 首先使用基于分数的扩散模型生成物 *** 姿的候选项。然后通过两步对候选项进行聚合：首先，通过似然估计筛选掉异常值，接着通过平均池化对剩余候选位姿进行聚合。为了避免在估计似然时需要繁琐的积分计算，研究作者还引入了一种基于能量的扩散模型的训练 *** ，以实现端到端的似然估计。

图 2. GenPose 框架结构

基于分数的扩散模型用于物体姿态候选的生成

这一步骤旨在解决多解问题，那么如何建模物 *** 姿的条件概率分布呢？作者采用了基于分数的扩散模型，利用 VE SDE（Variational Eulerian Stochastic Differential Equation）构建了一个连续的扩散过程。在模型的训练过程中，其目标是估计扰动条件姿态分布的分数函数，并最终通过 Probability Flow ODE（Ordinary Differential Equation）从条件分布中采样物体姿态的候选项。

图3. 基于分数的扩散模型生成物体姿态候选

基于能量的扩散模型用于物体姿态候选的聚合

从训练好的条件分布可以采样出无限个物 *** 姿候选，如果从候选中得到一个最终的物 *** 姿呢？最直接的方式是随机采样，但是这种 *** 无法保证预测的稳定性。是否可以通过平均池化来聚合候选项呢？然而这种聚合方式未考虑候选的质量，容易受到离群值的影响。作者认为可以通过似然估计的方式把候选的质量作为聚合的参考。具体来说，根据似然估计结果对物体姿态候选进行排序，过滤掉似然估计较低离群候选后对剩余候选进行平均池化，就可以得到聚合后的姿态估计结果。但是，扩散模型进行似然估计需要繁琐的积分计算，这严重影响了推理速度，及其限制其实际应用。为了解决这个问题，作者提出训练一个基于能量的扩散模型，直接用于进行端到端的似然估计，实现候选的快速聚合。