标题: Voxel R-CNN: Towards High Performance Voxel-based 3D Object Detection
作者: Jiajun Deng, Shaoshuai Shi, Peiwei Li, Wengang Zhou, Yanyong Zhang, Houqiang Li
arXiv ID: 2012.15712v2
日期: 2020-12-31

概要:Voxel R-CNN提出了一种纯体素的两阶段 3D目标检测框架,核心洞见是精确的点云定位并非高性能检测的必要条件。该方法首先通过 3D 主干网络提取体素特征并转换为鸟瞰图(BEV)生成候选框,随后通过创新的 Voxel RoI Pooling 直接从 3D 特征体中聚合 RoI 特征进行框精修,在保持 25 FPS实时速度的同时达到了与点云方法相当的检测精度,实现了效率与精度的重新权衡。
主干流程:
体素化与3D特征提取:将原始点云划分为规则体素,经 3D 主干网络提取多尺度 3D 特征体,并转换为 BEV 表示
BEV候选框生成:在 BEV 特征图上通过 2D 主干网络处理,利用 RPN 生成 3D 区域候选框
体素 RoI 特征提取:通过 Voxel RoI Pooling 直接从稀疏 3D 体素特征体中查询邻近体素并聚合RoI 特征,保留 3D 结构上下文
框精细化:检测头接收 RoI 特征,执行框回归残差预测和置信度估计,输出最终检测结果
声明:本节目论文解析与语音合成均由 AI 完成;解析内容基于本期解读时,该论文在 arXiv 上公开的对应版本;其中所有涉及原论文的图、数据均引用自原论文,如涉及侵权,请及时联系删除;AI 解读难免存在错误遗漏,如有发现欢迎联系修改;如需深入研究,建议阅读原文。
