
【3D感知】2020-Voxel R-CNN* 标题: Voxel R-CNN: Towards High Performance Voxel-based 3D Object Detection * 作者: Jiajun Deng, Shaoshuai Shi, Peiwei Li, Wengang Zhou, Yanyong Zhang, Houqiang Li * arXiv ID: 2012.15712v2 * 日期: 2020-12-31 概要:Voxel R-CNN提出了一种纯体素的两阶段 3D目标检测框架,核心洞见是精确的点云定位并非高性能检测的必要条件。该方法首先通过 3D 主干网络提取体素特征并转换为鸟瞰图(BEV)生成候选框,随后通过创新的 Voxel RoI Pooling 直接从 3D 特征体中聚合 RoI 特征进行框精修,在保持 25 FPS实时速度的同时达到了与点云方法相当的检测精度,实现了效率与精度的重新权衡。 主干流程: * 体素化与3D特征提取:将原始点云划分为规则体素,经 3D 主干网络提取多尺度 3D 特征体,并转换为 BEV 表示 * BEV候选框生成:在 BEV 特征图上通过 2D 主干网络处理,利用 RPN 生成 3D 区域候选框 * 体素 RoI 特征提取:通过 Voxel RoI Pooling 直接从稀疏 3D 体素特征体中查询邻近体素并聚合RoI 特征,保留 3D 结构上下文 * 框精细化:检测头接收 RoI 特征,执行框回归残差预测和置信度估计,输出最终检测结果 声明:本节目论文解析与语音合成均由 AI 完成;解析内容基于本期解读时,该论文在 arXiv 上公开的对应版本;其中所有涉及原论文的图、数据均引用自原论文,如涉及侵权,请及时联系删除;AI 解读难免存在错误遗漏,如有发现欢迎联系修改;如需深入研究,建议阅读原文。 arxiv PDF FAQ PDF
【3D感知】2021-PV-RCNN++* 标题: PV-RCNN++: Point-Voxel Feature Set Abstraction With Local Vector Representation for 3D Object Detection * 作者: Shaoshuai Shi, Li Jiang, Jiajun Deng, Zhe Wang, Chaoxu Guo, Jianping Shi, Xiaogang Wang, Hongsheng Li * arXiv ID: 2102.00463v3 * 日期: 2021-01-31 概要:PV-RCNN++ 采用两阶段架构解决大规模点云3D检测的效率与精度权衡问题。第一阶段通过3D稀疏卷积生成初始候选框;第二阶段通过"体素→关键点→网格"的深度特征交织流程进行精修,其中扇形化候选框中心采样(SPC)将关键点集中于高价值区域,VectorPool模块以紧凑的局部向量表示实现高效特征聚合,最终在150m×150m场景达到10 FPS,较PV-RCNN提速3倍。 主干流程: * 多尺度体素特征提取与初始候选框生成 * 扇形化候选框中心关键点采样(SPC) * 体素到关键点的场景编码(基于VectorPool的VSA) * 关键点到网格的RoI特征抽象(基于VectorPool的RoI-grid Pooling) * 候选框精细化回归与IoU置信度预测 声明:本节目论文解析与语音合成均由 AI 完成;解析内容基于本期解读时,该论文在 arXiv 上公开的对应版本;其中所有涉及原论文的图、数据均引用自原论文,如涉及侵权,请及时联系删除;AI 解读难免存在错误遗漏,如有发现欢迎联系修改;如需深入研究,建议阅读原文。 arxiv PDF FAQ PDF
【3D感知】2023-VoxelNeXt* 标题: VoxelNeXt: Fully Sparse VoxelNet for 3D Object Detection and Tracking * 作者: Yukang Chen, Jianhui Liu, Xiangyu Zhang, Xiaojuan Qi, Jiaya Jia * arXiv ID: 2303.11301v1 * 日期: 2023-03-20 概要:VoxelNeXt提出了一种全稀疏的体素到目标(voxel-to-object)检测范式,彻底摒弃传统3D检测器必需的稀疏到密集转换、手工设计的锚点/中心点代理以及NMS后处理。该方法通过深层稀疏卷积网络直接基于稀疏体素特征回归3D边界框,并支持基于体素坐标的帧间关联实现多目标跟踪,实现了端到端的高效3D感知。 主干流程: * 全稀疏体素特征编码:通过深层稀疏CNN提取多尺度体素特征,并进行稀疏高度压缩与跨层融合 * 查询体素选择:利用稀疏最大池化在稀疏特征图上筛选局部响应显著的体素作为预测查询点 * 直接3D框回归:从选定的查询体素特征直接预测物体的3D边界框参数(位置、尺寸、朝向、速度) * 体素级跟踪关联:基于查询体素的原始输入坐标进行帧间L2距离匹配,实现多目标跟踪 声明:本节目论文解析与语音合成均由 AI 完成;解析内容基于本期解读时,该论文在 arXiv 上公开的对应版本;其中所有涉及原论文的图、数据均引用自原论文,如涉及侵权,请及时联系删除;AI 解读难免存在错误遗漏,如有发现欢迎联系修改;如需深入研究,建议阅读原文。 arxiv PDF FAQ PDF
【3D感知】2023-PillarNeXt* 标题: PillarNeXt: Rethinking Network Designs for 3D Object Detection in LiDAR Point Clouds * 作者: Jinyu Li, Chenxu Luo, Xiaodong Yang * arXiv ID: 2305.04925v1 * 日期: 2023-05-08 概要:PillarNeXt 重新审视 3D 目标检测中的计算资源分配,证明简单的 pillar 编码器配合现代化的 2D 检测架构设计(大感受野 neck、center-based head)即可达到 SOTA 性能,无需复杂的精细几何建模。整体方案采用点云 → pillar 网格化 → 稀疏 ResNet 主干 → ASPP neck → 多分组中心检测头的简洁流程,在 Waymo 和 nuScenes 上实现了精度与效率的最佳平衡。 主干流程: * 点云 pillar 网格化:通过 MLP 和 max pooling 将原始点云转换为伪图像特征 * 稀疏 ResNet-18 主干:用稀疏 2D 卷积提取多层级抽象特征 * ASPP 特征融合:扩大感受野,融合上下文信息 * 特征上采样:恢复空间分辨率,生成细粒度表征 * 多分组中心检测头:预测中心点热力图并回归 3D 边界框 声明:本节目论文解析与语音合成均由 AI 完成;解析内容基于本期解读时,该论文在 arXiv 上公开的对应版本;其中所有涉及原论文的图、数据均引用自原论文,如涉及侵权,请及时联系删除;AI 解读难免存在错误遗漏,如有发现欢迎联系修改;如需深入研究,建议阅读原文。 arxiv PDF FAQ PDF
【3D感知】2019-PV-RCNN* 标题: PV-RCNN: Point-Voxel Feature Set Abstraction for 3D Object Detection * 作者: Shaoshuai Shi, Chaoxu Guo, Li Jiang, Zhe Wang, Jianping Shi, Xiaogang Wang, Hongsheng Li * arXiv ID: 1912.13192v2 * 日期: 2019-12-31 概要:PV-RCNN提出了一种深度融合 3D 体素 CNN 与 PointNet 集合抽象的两阶段检测框架,通过'体素编码-关键点抽象-网格池化'的三级流水线解决点云检测中效率与精度的平衡问题。该方法首先利用3D稀疏卷积高效提取多尺度特征并生成候选框,随后通过 Voxel Set Abstraction 模块将海量体素特征压缩到稀疏关键点,最后借助关键点向 RoI 网格的特征聚合实现细粒度框精修,既保留了体素CNN的计算效率,又获得了PointNet的灵活感受野和精确位置信息。 主干流程: * 3D稀疏卷积编码与候选框生成:将原始点云体素化后输入3D稀疏卷积编码器,学习多尺度语义特征并生成高质量的 3D 目标候选框 * 体素到关键点场景编码:通过 Voxel Set Abstraction 模块将多尺度体素级特征体积总结为一小组关键点,聚合局部几何与语义上下文形成紧凑的场景表示 * 关键点到网格RoI特征抽象与精修:在每个候选框内采样RoI-grid点,将关键点特征聚合到这些网格点,基于丰富的上下文信息完成置信度预测和框回归精修 声明:本节目论文解析与语音合成均由 AI 完成;解析内容基于本期解读时,该论文在 arXiv 上公开的对应版本;其中所有涉及原论文的图、数据均引用自原论文,如涉及侵权,请及时联系删除;AI 解读难免存在错误遗漏,如有发现欢迎联系修改;如需深入研究,建议阅读原文。 arxiv PDF FAQ PDF
【3D感知】2018-PointPillars* 标题: PointPillars: Fast Encoders for Object Detection from Point Clouds * 作者: Alex H. Lang, Sourabh Vora, Holger Caesar, Lubing Zhou, Jiong Yang, Oscar Beijbom * arXiv ID: 1812.05784v2 * 日期: 2018-12-14 概要:PointPillars 提出了一种将稀疏 3D 点云编码为稠密 2D 伪图像的新方法,通过垂直柱(pillars)组织点云并用 PointNet 学习特征,使后续全部计算转化为高效的 2D 卷积,在保持高精度的同时实现 62-105 Hz 的实时推理。该方案解决了传统方法中固定编码器精度不足、学习型编码器速度过慢的两难困境。 主干流程: * 将原始点云转换为垂直柱(pillars)并通过 PointNet 编码为伪图像特征 * 利用 2D 卷积骨干网络提取多尺度高级表征 * 通过 SSD 检测头直接回归 3D 边界框输出检测结果 声明:本节目论文解析与语音合成均由 AI 完成;解析内容基于本期解读时,该论文在 arXiv 上公开的对应版本;其中所有涉及原论文的图、数据均引用自原论文,如涉及侵权,请及时联系删除;AI 解读难免存在错误遗漏,如有发现欢迎联系修改;如需深入研究,建议阅读原文。 arxiv PDF FAQ PDF
【3D感知】2018-PointRCNN* 标题: PointRCNN: 3D Object Proposal Generation and Detection from Point Cloud * 作者: Shaoshuai Shi, Xiaogang Wang, Hongsheng Li * arXiv ID: 1812.04244v2 * 日期: 2018-12-11 概要:PointRCNN 采用两阶段架构直接从原始点云进行 3D 目标检测。第一阶段通过 PointNet++ 提取点特征并分割前景点,以自下而上方式生成高质量 3D 候选框,避免了传统投影到鸟瞰图或体素化带来的信息损失,也无需在3D空间密集铺设锚框;第二阶段将候选框内的点云池化并转换到规范坐标系,融合局部几何特征与第一阶段的全局语义特征,实现精确的框回归和置信度预测。 主干流程: * 点云特征编码与前景分割:利用 PointNet++ backbone 提取点级语义特征,通过分割头将场景点云判别为前景点和背景点 * 3D候选框生成:基于前景点采用 bin-based 回归策略预测中心位置、尺寸和朝向参数,经NMS筛选生成少量高质量候选框 * 规范坐标系变换与池化:对每个候选框进行点云区域池化,将点坐标转换到以候选框中心为原点、朝向为X轴的局部规范坐标系 * 特征融合与框精修:融合局部空间特征(变换后坐标、反射强度等)与Stage-1全局语义特征,预测框参数残差并评估置信度 声明:本节目论文解析与语音合成均由 AI 完成;解析内容基于本期解读时,该论文在 arXiv 上公开的对应版本;其中所有涉及原论文的图、数据均引用自原论文,如涉及侵权,请及时联系删除;AI 解读难免存在错误遗漏,如有发现欢迎联系修改;如需深入研究,建议阅读原文。 arxiv PDF FAQ PDF
【3D感知】2016-MV3D* 标题: Multi-View 3D Object Detection Network for Autonomous Driving * 作者: Xiaozhi Chen, Huimin Ma, Ji Wan, Bo Li, Tian Xia * arXiv ID: 1611.07759v3 * 日期: 2016-11-23 概要:论文提出MV3D框架,通过将稀疏3D点云编码为紧凑的鸟瞰图(BEV)和前视图表示,结合RGB图像输入,采用'先提候选、再融合精修'的策略解决自动驾驶场景下的3D目标检测问题。该方法首先基于BEV生成3D候选框,再通过深度融合机制交互三视角的中间层特征(而非简单的早期或晚期拼接),最终联合预测物体类别和带方向的3D边界框,实现了激光雷达几何精度与图像语义信息的有效互补。 主干流程: * 多视角输入编码:将稀疏LIDAR点云投影并编码为鸟瞰图(BEV)和前视图(FV)两种紧凑的2D表示,同时接收RGB图像,构成三路基输入 * 3D候选框生成:基于鸟瞰图表示,利用2D RPN机制在3D空间中高效生成候选框(3D proposals),这些候选框可自然投影到任意视角 * 多视角特征提取:将3D候选框投影到鸟瞰图、前视图和图像平面三个视角,通过ROI池化提取各视图的固定长度区域特征向量 * 深度融合与预测:通过深度融合网络(deep fusion)在多个中间层交互三视角特征(element-wise mean),基于融合后的特征联合预测物体类别和带方向的3D边界框 声明:本节目论文解析与语音合成均由 AI 完成;解析内容基于本期解读时,该论文在 arXiv 上公开的对应版本;其中所有涉及原论文的图、数据均引用自原论文,如涉及侵权,请及时联系删除;AI 解读难免存在错误遗漏,如有发现欢迎联系修改;如需深入研究,建议阅读原文。 arxiv PDF FAQ PDF
【3D感知】2017-VoxelNet* 标题: VoxelNet: End-to-End Learning for Point Cloud Based 3D Object Detection * 作者: Yin Zhou, Oncel Tuzel * arXiv ID: 1711.06396v1 * 日期: 2017-11-17 概要:VoxelNet提出了一种端到端的3D目标检测架构,彻底消除了对手工设计特征的依赖。该方法通过将稀疏点云划分为均匀3D体素,利用新颖的Voxel Feature Encoding (VFE)层将体素内点群转换为统一的特征表示,形成规则且描述性强的稀疏4D张量;随后通过3D卷积网络聚合空间上下文信息,最后接入区域提议网络(RPN)直接生成3D边界框预测,实现了从原始点云到检测结果的单阶段端到端训练。 主干流程: * 体素化与特征编码:将原始点云空间划分为均匀 3D 体素,通过 VFE 层提取体素内几何特征,构建描述性的稀疏 4D 张量表示 * 卷积中间层处理:对稀疏 4D 张量应用 3D 卷积操作,逐步聚合邻域体素特征以扩大感受野,捕获丰富的空间上下文信息 * 区域提议网络检测:基于多尺度融合特征图,通过全卷积结构并行输出前景/背景分类分数和3D边界框回归参数 声明:本节目论文解析与语音合成均由 AI 完成;解析内容基于本期解读时,该论文在 arXiv 上公开的对应版本;其中所有涉及原论文的图、数据均引用自原论文,如涉及侵权,请及时联系删除;AI 解读难免存在错误遗漏,如有发现欢迎联系修改;如需深入研究,建议阅读原文。 arxiv PDF FAQ PDF
【3D感知】2017-PointNet++* 标题: PointNet++: Deep Hierarchical Feature Learning on Point Sets in a Metric Space * 作者: Charles R. Qi, Li Yi, Hao Su, Leonidas J. Guibas * arXiv ID: 11706.02413v1 * 日期: 2017-06-07 概要:PointNet++ 通过构建层次化神经网络解决点云特征学习问题。该网络递归地在嵌套分区上应用 PointNet,利用度量空间距离捕获局部特征,并引入密度自适应层(MSG/MRG)智能融合多尺度特征,以应对真实点云采样不均匀的挑战。整体架构实现了从细粒度局部几何到全局语义的渐进式特征抽象。 主干流程: * 采样与分组:通过 FPS 选取代表点并用 Ball Query 构建局部邻域 * 局部特征抽象:用 mini-PointNet 将各邻域编码为固定维度特征向量 * 多尺度自适应融合:通过 MSG 或 MRG 层组合不同尺度的特征 * 层次化堆叠:重复上述步骤逐级扩大感受野、抽象更高层语义 * 任务输出:分类任务直接全局池化预测;分割任务通过特征传播上采样回原点 声明:本节目论文解析与语音合成均由 AI 完成;解析内容基于本期解读时,该论文在 arXiv 上公开的对应版本;其中所有涉及原论文的图、数据均引用自原论文,如涉及侵权,请及时联系删除;AI 解读难免存在错误遗漏,如有发现欢迎联系修改;如需深入研究,建议阅读原文。 arxiv PDF FAQ PDF
【3D感知】2016-PointNet* 标题: PointNet: Deep Learning on Point Sets for 3D Classification and Segmentation * 作者: Charles R. Qi, Hao Su, Kaichun Mo, Leonidas J. Guibas * arXiv ID: 1612.00593v2 * 日期: 2016-12-02 概要:PointNet 提出了一种直接输入原始点云的统一神经网络架构,通过"独立特征变换 + 对称聚合"的核心策略解决点云无序性问题,利用空间变换网络(T-Net)实现坐标对齐,并采用局部-全局特征融合机制同时支撑分类与分割任务。该架构避免了传统体素化方法的数据冗余和量化损失,以线性复杂度实现了高效的 3D 深度学习。 主干流程: * 输入点云经 T-Net 进行空间坐标对齐 * 共享 MLP 独立提取逐点局部特征 * Max Pooling 对称聚合为全局特征向量 * 全局特征与局部特征拼接(分割任务) * 输出分类分数或逐点分割标签 声明:本节目论文解析与语音合成均由 AI 完成;解析内容基于本期解读时,该论文在 arXiv 上公开的对应版本;其中所有涉及原论文的图、数据均引用自原论文,如涉及侵权,请及时联系删除;AI 解读难免存在错误遗漏,如有发现欢迎联系修改;如需深入研究,建议阅读原文。 arxiv PDF FAQ PDF