【3D感知】2020-Voxel R-CNN

标题: Voxel R-CNN: Towards High Performance Voxel-based 3D Object Detection
作者: Jiajun Deng, Shaoshuai Shi, Peiwei Li, Wengang Zhou, Yanyong Zhang, Houqiang Li
arXiv ID: 2012.15712v2
日期: 2020-12-31

概要：Voxel R-CNN提出了一种纯体素的两阶段 3D目标检测框架，核心洞见是精确的点云定位并非高性能检测的必要条件。该方法首先通过 3D 主干网络提取体素特征并转换为鸟瞰图（BEV）生成候选框，随后通过创新的 Voxel RoI Pooling 直接从 3D 特征体中聚合 RoI 特征进行框精修，在保持 25 FPS实时速度的同时达到了与点云方法相当的检测精度，实现了效率与精度的重新权衡。

主干流程：

体素化与3D特征提取：将原始点云划分为规则体素，经 3D 主干网络提取多尺度 3D 特征体，并转换为 BEV 表示
BEV候选框生成：在 BEV 特征图上通过 2D 主干网络处理，利用 RPN 生成 3D 区域候选框
体素 RoI 特征提取：通过 Voxel RoI Pooling 直接从稀疏 3D 体素特征体中查询邻近体素并聚合RoI 特征，保留 3D 结构上下文
框精细化：检测头接收 RoI 特征，执行框回归残差预测和置信度估计，输出最终检测结果

声明：本节目论文解析与语音合成均由 AI 完成；解析内容基于本期解读时，该论文在 arXiv 上公开的对应版本；其中所有涉及原论文的图、数据均引用自原论文，如涉及侵权，请及时联系删除；AI 解读难免存在错误遗漏，如有发现欢迎联系修改；如需深入研究，建议阅读原文。

arxiv PDF

FAQ PDF