【3D感知】2017-VoxelNet

标题: VoxelNet: End-to-End Learning for Point Cloud Based 3D Object Detection

作者: Yin Zhou, Oncel Tuzel

arXiv ID: 1711.06396v1

日期: 2017-11-17

概要：VoxelNet提出了一种端到端的3D目标检测架构，彻底消除了对手工设计特征的依赖。该方法通过将稀疏点云划分为均匀3D体素，利用新颖的Voxel Feature Encoding (VFE)层将体素内点群转换为统一的特征表示，形成规则且描述性强的稀疏4D张量；随后通过3D卷积网络聚合空间上下文信息，最后接入区域提议网络(RPN)直接生成3D边界框预测，实现了从原始点云到检测结果的单阶段端到端训练。

主干流程：

体素化与特征编码：将原始点云空间划分为均匀 3D 体素，通过 VFE 层提取体素内几何特征，构建描述性的稀疏 4D 张量表示

卷积中间层处理：对稀疏 4D 张量应用 3D 卷积操作，逐步聚合邻域体素特征以扩大感受野，捕获丰富的空间上下文信息

区域提议网络检测：基于多尺度融合特征图，通过全卷积结构并行输出前景/背景分类分数和3D边界框回归参数

声明：本节目论文解析与语音合成均由 AI 完成；解析内容基于本期解读时，该论文在 arXiv 上公开的对应版本；其中所有涉及原论文的图、数据均引用自原论文，如涉及侵权，请及时联系删除；AI 解读难免存在错误遗漏，如有发现欢迎联系修改；如需深入研究，建议阅读原文。

arxiv PDF

FAQ PDF