【3D感知】2023-VoxelNeXt

标题: VoxelNeXt: Fully Sparse VoxelNet for 3D Object Detection and Tracking
作者: Yukang Chen, Jianhui Liu, Xiangyu Zhang, Xiaojuan Qi, Jiaya Jia
arXiv ID: 2303.11301v1
日期: 2023-03-20

概要：VoxelNeXt提出了一种全稀疏的体素到目标（voxel-to-object）检测范式，彻底摒弃传统3D检测器必需的稀疏到密集转换、手工设计的锚点/中心点代理以及NMS后处理。该方法通过深层稀疏卷积网络直接基于稀疏体素特征回归3D边界框，并支持基于体素坐标的帧间关联实现多目标跟踪，实现了端到端的高效3D感知。

主干流程：

全稀疏体素特征编码：通过深层稀疏CNN提取多尺度体素特征，并进行稀疏高度压缩与跨层融合
查询体素选择：利用稀疏最大池化在稀疏特征图上筛选局部响应显著的体素作为预测查询点
直接3D框回归：从选定的查询体素特征直接预测物体的3D边界框参数（位置、尺寸、朝向、速度）
体素级跟踪关联：基于查询体素的原始输入坐标进行帧间L2距离匹配，实现多目标跟踪

声明：本节目论文解析与语音合成均由 AI 完成；解析内容基于本期解读时，该论文在 arXiv 上公开的对应版本；其中所有涉及原论文的图、数据均引用自原论文，如涉及侵权，请及时联系删除；AI 解读难免存在错误遗漏，如有发现欢迎联系修改；如需深入研究，建议阅读原文。

arxiv PDF

FAQ PDF