您当前的位置：首页 > 电脑百科 > 程序开发 > 编程百科

Sparse4D v3来了！推进端到端3D检测和跟踪

时间：2023-11-24 12:14:46 来源：微信公众号作者：自动驾驶之心

+ 加入收藏

原标题：Sparse4D v3 Advancing End-to-End 3D Detection and Tracking

论文链接：https://arxiv.org/pdf/2311.11722.pdf

代码链接：https://Github.com/linxuewu/Sparse4D

作者单位：地平线

Sparse4D v3来了！推进端到端3D检测和跟踪

论文思路：

在自动驾驶感知系统中，3D检测和跟踪是两项基本任务。本文基于 Sparse4D 框架更深入地研究了该领域。本文引入了两个辅助训练任务（时序实例去噪-Temporal Instance Denoising和质量估计-Quality Estimation），并提出解耦注意力(decoupled attention)来进行结构改进，从而显着提高检测性能。此外，本文使用一种简单的方法将检测器扩展到跟踪器，该方法在推理过程中分配实例 ID，进一步突出了 query-based 算法的优势。在 nuScenes 基准上进行的大量实验验证了所提出的改进的有效性。以Re.NET50为骨干，mAP、NDS和AMOTA分别提高了3.0%、2.2%和7.6%，分别达到46.9%、56.1%和49.0%。本文最好的模型在 nuScenes 测试集上实现了 71.9% NDS 和 67.7% AMOTA。

主要贡献：

本文提出了 Sparse4D-v3，这是一个强大的 3D 感知框架，具有三种有效的策略：时序实例去噪、质量估计和解耦注意力。

本文将 Sparse4D 扩展为端到端跟踪模型。

本文展示了 nuScenes 改进的有效性，在检测和跟踪任务中实现了最先进的性能。

网络设计：

首先，本文观察到与 dense-based 算法相比，sparse-based 算法在收敛方面遇到了更大的挑战，最终影响了它们的最终性能。这个问题已经在 2D 检测领域得到了彻底的研究[17,48,53]，并且主要归因于一对一正样本匹配的使用。这种匹配方式在训练初期不稳定，而且与一对多匹配相比，正样本数量有限，从而降低了解码器训练的效率。此外，Sparse4D 使用稀疏特征采样而不是全局交叉注意力，由于正样本稀缺，这进一步阻碍了编码器收敛。在 Sparse4Dv2 [27] 中，引入了密集深度监督(dense depth supervision)来部分缓解图像编码器面临的这些收敛问题。本文主要旨在通过关注解码器训练的稳定性来增强模型性能。本文将去噪任务作为辅助监督，并将去噪技术(denoising techniques)从 2D 单帧检测扩展到 3D 时序检测。不仅保证了稳定的正样本匹配，而且显着增加了正样本的数量。此外，本文引入了质量评估(quality estimation)任务作为辅助监督。这使得输出的置信度分数更加合理，提高了检测结果排名的准确性，从而获得更高的评估指标。此外，本文增强了Sparse4D中实例自注意力(instance self-attention)和时序交叉注意力模块(temporal cross-attention modules)的结构，引入了一种解耦注意力机制(decoupled attention mechanism)，旨在减少注意力权重计算过程中的特征干扰。如图 3 所示，当添加 anchor embedding 和实例特征作为注意力计算的输入时，所得注意力权重中存在异常值的实例。这无法准确反映目标特征之间的相互关联，导致无法聚合正确的特征。通过用 concatenation 代替 attention，本文显着减少了这种错误现象的发生。此增强功能与 Conditional DETR [33] 具有相似之处。然而，关键的区别在于本文强调 queries 之间的注意力，与 Conditional DETR 不同，其专注于 queries 和图像特征之间的交叉注意力。此外，本文的方法涉及独特的编码方法。

最后，为了提高感知系统的端到端能力，本文探索将3D多目标跟踪任务集成到Sparse4D框架中，从而能够直接输出目标运动轨迹。与 tracking-by-detection 方法不同，本文消除了数据关联和过滤的需要，将所有跟踪功能集成到检测器中。此外，与现有的联合检测和跟踪方法不同，本文的跟踪器不需要修改训练过程或损失函数。它不需要提供 ground truth IDs，但可以实现预定义的 instance-to-tracking 回归。本文的跟踪实现最大限度地集成了检测器和跟踪器，不需要修改检测器的训练过程，也不需要额外的微调。

Sparse4D v3来了！推进端到端3D检测和跟踪

图1：Sparse4D框架概述，输入多视图视频并输出所有帧的感知结果。

Sparse4D v3来了！推进端到端3D检测和跟踪

图 2：不同算法的 nuScenes 验证数据集上的推理效率 (FPS) - 感知性能 (mAP)。

Sparse4D v3来了！推进端到端3D检测和跟踪

图 3：实例自注意力中的注意力权重的可视化：1）第一行显示了普通自注意力中的注意力权重，其中红色圆圈中的行人显示出与目标车辆（绿色框）的意外相关性。2）第二行显示了解耦注意力中的注意力权重，有效解决了该问题。

Sparse4D v3来了！推进端到端3D检测和跟踪

图 4：时序实例去噪的图示。(a) 在训练阶段，实例包含两个组成部分：可学习的和噪声的。噪声实例由时间和非时间元素组成。对于噪声实例，本文采用预匹配方法来分配正样本和负样本——将 anchors 与 ground truth 进行匹配，而可学习实例与预测和 ground truth 进行匹配。在测试阶段，仅保留图中的绿色块。(b) 采用 Attention mask 来防止 groups 之间的特征传播，其中灰色表示 queries 和 keys 之间没有注意力，绿色表示相反。

Sparse4D v3来了！推进端到端3D检测和跟踪

图 5：anchor encoder 和注意力的架构。本文独立地对 anchor 的多个组件进行高维特征编码，然后将它们连接起来。与原始 Sparse4D 相比，这种方法可以降低计算和参数开销。E 和 F 分别表示 anchor embedding 和实例特征。

Sparse4D v3来了！推进端到端3D检测和跟踪

实验结果：

Sparse4D v3来了！推进端到端3D检测和跟踪

总结:

本文首先提出了增强 Sparse4D 检测性能的方法。这一增强主要包括三个方面：时序实例去噪、质量估计和解耦注意力。随后，本文说明了将 Sparse4D 扩展为端到端跟踪模型的过程。本文在 nuScenes 上的实验表明，这些增强功能显着提高了性能，使 Sparse4Dv3 处于该领域的前沿。

引用：

Lin, X., Pei, Z., Lin, T., Huang, L., & Su, Z. (2023). Sparse4D v3: Advancing End-to-End 3D Detection and Tracking. ArXiv. /abs/2311.11722

Tags：Sparse4D 点击:() 评论:()

声明：本站部分内容及图片来自互联网,转载是出于传递更多信息之目的,内容观点仅代表作者本人,不构成投资建议。投资者据此操作，风险自担。如有任何标注错误或版权侵犯请与我们联系，我们将及时更正、删除。

▌相关推荐

Sparse4D v3来了！推进端到端3D检测和跟踪

原标题：Sparse4D v3 Advancing End-to-End 3D Detection and Tracking论文链接：https://arxiv.org/pdf/2311.11722.pdf代码链接：https://github.com/linxuewu/Sparse4D作者单位...【详细内容】

2023-11-24　　Search: Sparse4D 点击:(212)　　评论:(0)　　加入收藏

▌简易百科推荐

即将过时的 5 种软件开发技能！

作者 | Eran Yahav编译 | 言征出品 | 51CTO技术栈（微信号：blog51cto）时至今日，AI编码工具已经进化到足够强大了吗？这未必好回答，但从2023 年 Stack Overflow 上的调查数据来看，44%...【详细内容】

2024-04-03　　　　51CTO　　Tags:软件开发　点击:(5)　　评论:(0)　　加入收藏

跳转链接代码怎么写？

在网页开发中，跳转链接是一项常见的功能。然而，对于非技术人员来说，编写跳转链接代码可能会显得有些困难。不用担心！我们可以借助外链平台来简化操作，即使没有编程经验，也能轻松实...【详细内容】

2024-03-27　　蓝色天纪　　　　Tags:跳转链接　点击:(12)　　评论:(0)　　加入收藏

中台亡了，问题到底出在哪里？

曾几何时，中台一度被当做“变革灵药”，嫁接在“前台作战单元”和“后台资源部门”之间，实现企业各业务线的“打通”和全域业务能力集成，提高开发和服务效率。但在中台如火如荼之...【详细内容】

2024-03-27　　dbaplus社群　　　　Tags:中台　点击:(8)　　评论:(0)　　加入收藏

员工写了个比删库更可怕的Bug！

想必大家都听说过删库跑路吧，我之前一直把它当一个段子来看。可万万没想到，就在昨天，我们公司的某位员工，竟然写了一个比删库更可怕的 Bug！给大家分享一下（不是公开处刑），希望朋友们...【详细内容】

2024-03-26　　dbaplus社群　　　　Tags:Bug 　点击:(5)　　评论:(0)　　加入收藏

我们一起聊聊什么是正向代理和反向代理

从字面意思上看，代理就是代替处理的意思，一个对象有能力代替另一个对象处理某一件事。代理，这个词在我们的日常生活中也不陌生，比如在购物、旅游等场景中，我们经常会委托别人代替...【详细内容】

2024-03-26　　萤火架构　　微信公众号　　Tags:正向代理　点击:(10)　　评论:(0)　　加入收藏

看一遍就理解：IO模型详解

前言大家好，我是程序员田螺。今天我们一起来学习IO模型。在本文开始前呢，先问问大家几个问题哈~什么是IO呢？什么是阻塞非阻塞IO？什么是同步异步IO？什么是IO多路复用？select/epoll...【详细内容】

2024-03-26　　捡田螺的小男孩　　微信公众号　　Tags:IO模型　点击:(8)　　评论:(0)　　加入收藏

为什么都说 HashMap 是线程不安全的？

做Java开发的人，应该都用过 HashMap 这种集合。今天就和大家来聊聊，为什么 HashMap 是线程不安全的。1.HashMap 数据结构简单来说，HashMap 基于哈希表实现。它使用键的哈希码来...【详细内容】

2024-03-22　　Java技术指北　　微信公众号　　Tags:HashMap 　点击:(11)　　评论:(0)　　加入收藏

如何从头开始编写LoRA代码，这有一份教程

选自 lightning.ai作者：Sebastian Raschka机器之心编译编辑：陈萍作者表示：在各种有效的 LLM 微调方法中，LoRA 仍然是他的首选。LoRA（Low-Rank Adaptation）作为一种用于微调 LLM（大...【详细内容】

2024-03-21　　机器之心Pro　　　　Tags:LoRA 　点击:(12)　　评论:(0)　　加入收藏

这样搭建日志中心，传统的ELK就扔了吧！

最近客户有个新需求，就是想查看网站的访问情况。由于网站没有做google的统计和百度的统计，所以访问情况，只能通过日志查看，通过脚本的形式给客户导出也不太实际，给客户写个简单的...【详细内容】

2024-03-20　　dbaplus社群　　　　Tags:日志　点击:(4)　　评论:(0)　　加入收藏

Kubernetes 究竟有没有 LTS？

从一个有趣的问题引出很多人都在关注的 Kubernetes LTS 的问题。有趣的问题2019 年，一个名为 apiserver LoopbackClient Server cert expired after 1 year[1] 的 issue 中提...【详细内容】

2024-03-15　　云原生散修　　微信公众号　　Tags:Kubernetes 　点击:(5)　　评论:(0)　　加入收藏

推荐资讯

访问网站显示不安全是	掌握独立站SEO策略，提
快手蓝色小钥匙跳转微	微信朋友圈如何置顶
Facebook新用户扩展怎	详解微信里面的分期可
微信表情包更新：原创设	微信朋友圈功能大改版