北京大学学报(自然科学版) 第61卷 第4期 2025年7月
Acta Scientiarum Naturalium Universitatis Pekinensis, Vol. 61, No. 4 (July 2025)
doi: 10.13209/j.0479-8023.2025.055
收稿日期: 2024–05–13;
修回日期: 2024–12–22
摘要 针对路端图像背景高结构相似性及低特征重要性的特点, 基于单发多框检测器(SSD)的运行机制, 通过引入数据预处理和轻量级卷积注意力模块, 并调整注意力模块在算法中的位置, 建立最优化的路端检测算法。在车路协同公开数据集 DAIR-V2X 上进行日间和夜间场景以及不同交通流量下的路端目标检测, 结果表明, 在提取图像特征的第 3 级池化层后添加注意力模块, 优化算法的精度指标 mAP@0.5:0.95 可以获得 1.67%的提升, 且仅损失 2 FPS 的检测速度, 能够满足路端目标检测任务的精度与速度需求, 有效地增强车端的目标识别能力。
关键词 自动驾驶汽车; 目标检测; 注意力模块; 车路协同技术
随着众多制造商的积极参与, 单车智能驾驶技术已逐步从理论研究走向实际应用。但是, 市场上的商业汽车产品集中在高级辅助驾驶功能的扩展升级领域, 理想的完全自动驾驶技术尚未普及[1]。在自动驾驶汽车的决策过程中, 车辆端目标检测是关键的感知技术, 负责识别和定位实时视觉数据中的车辆、行人、道路、障碍物和基础设施等, 以便规划行驶路径[2]。尽管如此, 车端目标检测在逆光条件、多语义场景和障碍物遮挡等特殊情况下的表现尚有待提升。近年来, 车路协同技术的发展为解决这些问题提供了新的可能性。随着道路基础设施、智能感知设备、车路通信设施以及计算控制设备的优化提升, 车路协同技术通过引入路端目标检测, 显著地提高自动驾驶系统的性能[3]。路侧设备不仅能够实时检测路面状况和交通信号, 还能感知其他智能网联车辆的状态, 并借助强大的边缘计算能力, 为车辆提供多样化的决策支持[4]。
目标检测是计算机视觉领域中一项基础性的富有挑战性的任务, Girshick 等[5]2014 年提出结合卷积神经网络和选择性搜索, 生成候选区域的区域卷积神经网络(Regions with CNN features, R-CNN), 该里程碑式的双阶段目标检测算法将检测精度提升约30%。He 等[6]通过引入空间金字塔池化层, 可以有效地处理不同尺寸和长宽比的图像, 实现了基于卷积神经网络检测算法的多尺度优化。2015 年, Girshick[7]通过在原算法中融入共享卷积层计算, 实现快速 R-CNN 检测, 利用卷积层的输出作为候选区域提取特征, 将检测速度提升约 10 倍。Ren 等[8]引入区域提议网络替代选择性搜索, 减少重复计算并保持检测精度, 实现端到端的更快速R-CNN 检测算法。Redmon 等[9]提出的 YOLO(You Only Look Once)算法将目标检测视为一个回归问题, 通过仅预测空间上分离的边界框和相关的类别概率, 使算法能够以每秒 45 帧的速度实时处理图像。He 等[10]为更快速 R-CNN 算法增加小型的全卷积网络分支, 用于预测感兴趣区域的分割掩码, 实现包含对象形状和轮廓信息的实例分割。Liu 等[11]提出的单发多框检测器(Single Shot Multibox Detector, SSD)通过多尺度特征块生成不同尺寸的候选框, 并预测边界框的类别和偏移量, 实现对不同大小目标快速且精确的检测。
在自动驾驶目标检测的应用层面, Wu 等[12]利用 YOLO 检测算法, 在 Kaggle 竞赛数据集上进行检测实验, 通过分析检测到的事故模式, 合理预测在其他道路场景上, 短时间内是否会发生事故。Wang 等[13]利用 YOLO 检测算法在车路协同数据集上进行实验, 结果表明检测速度和精度均满足复杂路口环境感知的要求。Fan 等[14]针对检测中前车遮挡问题, 将更快速 R-CNN 算法移植到个人数据集, 得到鲁棒性更高的神经网络检测算法。Htet 等[15]利用快速 R-CNN 算法和超参数优化, 对视频流中目标进行检测, 获得理想的精度表现。
现有的研究集中在以 R-CNN 和 YOLO 为主的检测算法, 较少尝试使用基于单发多框机制的目标检测算法[16]。基于单发多框机制的目标检测算法在保持与 R-CNN 相近精度的同时, 可以显著地提升检测速度, 且相比 YOLO, 对多尺度目标检测效果更优。本研究从单发多框机制出发, 在检测算法中引入数据预处理和轻量级卷积注意力模块, 并调整注意力模块在算法中的位置, 建立综合考虑精度与速度的最优化路端目标检测算法。
在目标检测领域, 单发多框机制的核心是利用卷积神经网络, 在不同尺度的特征图上进行预测, 以捕捉不同大小的目标, 优势在于训练的所有步骤都在一个统一的框架内同时进行, 并共享相同的损失函数。基于单发多框机制的检测算法结合了速度和准确性, 比较适合需要实时目标检测的应用场景。具体而言, 单发机制指通过单一前向传播过程实现检测任务, 相对于双阶段的 R-CNN 系列算法, 避免了依赖复杂的区域提议网络。由于路端目标检测需要将信息及时传递到车端, 所以简化算法的流程并联合优化损失函数有助于提升检测速度[17–18]。多框机制指在多尺度卷积深层网络的每个特征图的每个像素中心点上生成多个预定义的先验框, 并通过回归调整边界框的位置来精准地匹配目标。先验框尺寸和长宽比的组合决定卷积神经网络层生成的先验框数量, 长宽比的组合一般为(1, 2, 1/2)和(1, 2, 3, 1/2, 1/3)两类, 先验框的尺度计算公式为
(1)
式中, smin=0.2, smax=0.9; m 表示不同分辨率的特征图个数; 因为第一个特征图上的先验框的尺度是单独设置的, 所以 k 表示第 k+1 个先验框的尺度。对于长宽比为 1 的先验框, 使用两种尺度 scale1=sk 或
, 因此卷积神经网络层预设先验框的数量一般为 4 或 6。多框机制的意义在于, 随着目标与路端数据采集设备的距离实时变化, 目标在图像中的尺度会发生改变, 增强算法的多尺度预测能力对提高路端检测精度至关重要[19–20]。
路端目标检测任务中, 针对图像背景高结构相似性及低特征重要性的特点, 在基于单发多框机制的基础检测算法前端引入数据预处理步骤, 并在特征提取模块融入轻量级卷积注意力模块, 进一步提升算法的抗背景干扰能力以及对关键目标特征的识别和定位能力。优化的路端目标检测算法包含数据预处理、特征提取、多尺度预测和数据后处理 4 个部分, 输出检测结果包括路端目标的类别标签、边界框的位置以及表示置信度的得分。算法流程如图1 所示。
路端检测算法在数据预处理模块构建光学和几何变换作为优化策略, 目的是在维持数据规模的同时, 提升数据集的多样性。光学变换通过调整图像的像素强度分布, 模拟不同的光照和色彩条件, 增强图像的视觉效果, 从而帮助算法适应广泛的路端实际应用场景。几何变换通过改变图像的几何属性, 模拟目标对象的不同视角以及复杂的透视效果, 增加路端数据的多样性, 从而提高检测算法的泛化能力。
图1 优化的路端目标检测算法流程
Fig. 1 Flow chart of optimized roadside object detection algorithm
在特征提取模块引入注意力模块作为优化策略, 通过强调重要通道, 提升特征图中与路端目标相关的信息并聚焦于关键的空间位置, 以便减少背景或其他非目标区域的干扰。为了在保持注意力模块对算法性能提升的同时, 减少计算复杂度和参数数量, 引入轻量级卷积注意力模块[21]。具体地, 使用卷积块注意力模块(Convolutional Block Attention Module, CBAM)[22]学习输入特征的重要性, 以提高卷积神经网络的性能。该模块主要包含两个部分: 通道注意力和空间注意力。通道注意力的目标是识别不同通道的特征重要性, 使用全局池化来压缩特征图的空间维度, 从而保留通道信息, 接着通过小型的全连接层, 将通道信息映射到更小的维度, 然后通过上采样操作, 恢复到原始通道数, 最后通过激活函数, 得到每个通道的权重, 用于加权原始特征图的每个通道。空间注意力旨在找出特征图中哪些空间位置相对重要, 将通道注意力的输出结果最大池化和平均池化, 接着将拼接后的特征图通过卷积层变为一通道的特征图, 最后使用激活函数, 得到每个空间位置的权重, 用于加权原始特征图的每个空间位置。高效通道注意力模块(efficient channel attention module, ECAM)[23]通过一维卷积捕捉通道间的相关性, 卷积核的大小通过函数自适应变化, 使得通道数较大的层更多地进行跨通道交互, 生成的通道注意力权重用于调整每个通道的重要性。
图像数据经过预处理后, 会依次进入基础卷积神经网络(例如 VGGNet[24])和多尺度卷积深层网络。轻量级卷积注意力模块在特征提取模块的添加位置会影响检测精度与速度, 因此需要分析该模块的最佳处理位置来获得最优化的改进策略。具体的优化策略如图 2 所示, 当轻量级卷积注意力模块紧接基础网络的某级池化层时, 能够使算法在下采样过程中进一步保留关键信息, 所以该优化策略能给算法表现带来正向影响。类似地, 当注意力模块CBAM 放置在多尺度卷积深层网络的 6 个尺度特征层后, 理论上可以帮助算法在分类器预测前对各级特征进行深层次的提炼和优化, 从而增强特征的提取能力。
图2 特征提取模块优化策略
Fig. 2 Optimization strategy for the feature extraction part
多尺度预测模块通过生成默认的具有不同长宽比的先验框, 用于匹配不同尺寸的目标, 以便预测相应的类别得分向量和位置偏移向量。最后, 数据后处理模块通过使用归一化指数函数处理类别得分以及非极大抑制去除重叠的检测框来保留最佳的边界框, 并输出检测结果[25]。
DAIR-V2X 是全球首个车路协同自动驾驶公开数据集, 由清华大学智能产业研究院依托北京市高级别自动驾驶示范区推出, 共包含 71254 个激光雷达帧和 71254 个相机帧, 所有帧均从真实场景中捕获, 并带有三维注释[26]。本实验使用的路端二维图像数据集包含路侧 7058 帧图像数据, 传感器类型为1 英寸全局曝光 CMOS, 传感器最大采样分辨率为4096×2160, 图像格式为 RGB, 并按 1920×1080 分辨率压缩保存为 JPEG 图像。数据集标注了障碍物目标的真实边界框, 同时标注障碍物类别、截断和遮挡信息。障碍物截断从 0, 1 和 2 中取值, 分别表示不截断、横向截断和纵向截断。障碍物遮挡从 0, 1 和 2 中取值, 分别表示不遮挡、0%~50%遮挡以及50%~100%遮挡。由于检测类别样本数量存在差异, 所以选择检测的类别共计 8 类: 小汽车(Car)、卡车/大货车(Truck)、面包车/厢式货车(Van)、公交车/大型旅客车(Bus)、行人(Pedestrian)、自行车(Cyc-list)、摩托车(Motorcyclist)以及交通锥筒(Traffic-cone), 排除了图像数据集中三轮车(Tricyclist)和手推车(Barrowlist)两个样本量相对偏少的类别。
数据集包含 7058 帧图像, 通过随机抽样方法将从中抽取的 7000 张图像划分为训练集、验证集和测试集, 分配比例为 8:1:1。经过裁切, 将每张输入图像处理调整为 640 像素×540 像素, 用来缓解在基础网络阶段图像被压缩至 300 像素×300 像素时引起的信息损失。裁切过程中, 将输入数据分为尺寸相同的 6 张图像, 确保在调整输入尺寸时, 图像中的目标可以保持其原有的长宽比。实验的硬件配置以及算法训练的超参数如表 1 所示。
交并比(intersection over union, IoU)是目标检测领域重要的评估指标, 用于衡量预测边界框与真实边界框之间的重叠程度。交并比的值介于 0~1 之间, 值越大表示预测边界框与真实边界框的重叠程度越高, 预测结果越准确。交并比的计算公式为
(2)
式中, AreaUnion 是预测边界框与真实边界框并集的面积, AreaIntersection 是预测边界框与真实边界框交集的面积。在具体评估过程中, 通常设定一个交并比阈值, 当预测边界框与真实边界框的交并比高于该阈值时, 认为该预测结果是正确的。
平均精确率(average precision, AP)是在目标检测任务中衡量算法性能的评价指标, 它综合考虑了算法的精确率(precision, P)和召回率(recall, R)。
精确率指在所有被算法预测为正类的样本中, 实际为正类的样本所占的比例。精确率关注的是算法预测正类的准确性, 计算公式为
表1 硬件配置与超参数设置
Table 1 Hardware configuration and hyperparameter settings
硬件 配置 CPUAMD Ryzen 9 7950X GPURTX 4090 CUDA11.4 CuDNN8005 超参数参数值 图像大小640像素×540像素 学习率0.001 优化方式随机梯度下降 批量大小8
(3)
式中, TP(true positives)是真正例的数量, 即算法正确地预测为正类的样本数; FP(false positives)是假正例的数量, 即算法错误地预测为正类的样本数。
召回率指在所有实际为正类的样本中, 被算法正确地预测为正类的样本所占的比例。召回率关注算法捕捉正类样本的能力, 计算公式为
(4)
式中, FN(false negatives)是假负例的数量, 即算法未能正确地预测为正类的样本数。
平均精确率通过计算不同阈值下的精确率和召回率来评估目标检测模型的性能, 通常生成一个精确率–召回率曲线, 该曲线下的面积即为单类的平均精确率。平均精确率均值(mean average precision, mAP)是在每一个类别都计算出平均精确率后, 再计算各类别平均精确率的平均值。在实验中, 平均精确率与平均精确率均值作为精度评价参数, 用于判断路端目标检测结果精度的优劣。其中, AP@0.5和 mAP@0.5 是只考虑当预测框与真实框的交并比大于 0.5 时的检测结果, AP@0.5:0.95 和 mAP@0.5: 0.95 则考虑交并比在 0.5~0.95 范围内, 以 0.05 为间隔的多个阈值。
表 2 展示基于单发多框机制的基础算法与优化算法的综合表现。可以看出, 添加轻量级卷积注意力模块的最优化算法能够在只损失约 2 FPS 检测速度的情况下, 精度指标 mAP@0.5 可以获得 0.75%的提升, mAP@0.5:0.95 可以获得 1.67%的提升。目前, 在目标检测领域, 基线算法的精度指标 mAP@0.5: 0.95 已经很高, 1%左右的提升是有价值的[11], 在同类型任务中, 基于 YOLOv7 算法的 mAP@0.5:0.95提升为 0.7%[13]。
通过比较基础网络各级池化层后添加轻量级注意力模块的结果可以发现, 增加卷积注意力模块是相对有效的。例如, 在第 1 级或第 3 级池化层后添加 CBAM, 均能显著地提升算法的精度指标 mAP@ 0.5:0.95, 表明该模块对提升算法在严格交并比阈值下的检测性能更有益。主要原因在于, 注意力模块有助于减少算法对非目标区域的关注, 从而减少在高交并比场景中的误检。中间池化层后的特征图通常具有中等的语义级别, 既不同于浅层只包含边缘和纹理信息, 也不同于深层只有抽象的特征信息, 适合捕捉目标的局部和整体特征, 所以能够获得理想的精度指标提升。在第 3 级和 4 级池化层后添加ECAM 的优化策略仍然保留了合适的空间分辨率, 这对路端的目标检测任务很重要, 因为算法需要足够的空间细节来定位目标。CBAM 相对于 ECAM的精度提升在于, 尽管 CBAM 在空间层面上牺牲了一定的检测速度, 却有助于提升算法对不同尺度和位置信息的捕捉能力。
另一方面, 尽管在深层网络多尺度特征层后添加注意力模块在理论上有助于算法学习额外的特征表示, 但该优化策略导致检测精度的下降, 并且显著地降低算法的推理速度。推测主要原因是 CBAM不适用于所有尺度的特征图, 无法有效地捕捉不同尺度特征间的复杂关系, 并且过多的注意力模块影响算法提取信息的方式与效率。在 4 个级别的池化层后均添加 CBAM, 使算法检测速度下降 11 FPS, 但在精度指标 mAP@0.5 略有下降的情况下, mAP@ 0.5:0.95 却提升 1.48%, 从另一角度证明, 该注意力模块的双重精炼过程使算法在高交并比阈值下展现出更强的提取和标定特征图中关键信息的能力。总的来看, 基础网络第 3 级池化层后添加 CBAM 的最优化算法, 在精度与速度之间取得了很好的平衡, 在路端的目标检测任务能够满足实际应用需求。
表2 测试结果比较
Table 2 Comparison of test results
检测算法mAP@0.5/%mAP@0.5:0.95/%FPS 基础算法83.0559.9545 多尺度特征层后增加CBAM82.7555.9924 池化层 1 后增加 CBAM83.7561.5640 池化层 3 后增加 CBAM83.8261.6243 池化层 3+4 后增加CBAM83.8061.4142 池化层 1+2+3+4 后增加CBAM83.0061.4334 池化层 3+4 后增加ECAM83.6761.4044 最优化算法表现+0.75+1.67−2
说明: 粗体数字为性能最优。
从图 3 算法优化前后 8 个检测类别的精度表现可以观察到, 摩托车和公交车/大型旅客车两个类别分别在精度指标 AP@0.5 和 AP@0.5:0.95 上实现最显著的提升, 达到 1.99%和 3.86%, 表明最优化算法在降低目标类别间的误分概率方面表现优越。对于自行车和摩托车这两个具有分类挑战性的类别, 当采用较为严格的交并比阈值时, 它们的检测精度同样实现显著的提升。对于小汽车、卡车/大货车、面包车/厢式货车和公交车/大型旅客车这 4 个相近的类别, 精度指标 AP@0.5:0.95 的提升均超过1.3%。交通锥桶类别的精度指标 AP@0.5:0.95 下降0.8%, 该现象可能与注意力模块倾向于关注小汽车等尺寸较大的目标类别有关, 从而导致对小尺寸目标的检测精度有所下降。
为了直观地对比基于单发多框机制的最优化检测算法与基础算法在路端目标检测任务中的表现, 对数据集中不同路端日间典型场景检测的可视化结果如图 4 所示。图 4(a)和(c)为基础算法的检测效果, 图 4(b)和(d)为最优化算法在交并比阈值为 0.5条件下的检测结果。观察图 4 中目标物检测框下的数值能够发现, 优化后的算法显著地增强检测目标的置信度, 验证了数据预处理和轻量级卷积注意力模块对提升路端目标检测任务精度的有效性。
图 4(a)和(b)场景中, 红色辅助框处斑马线附近出现白色小汽车(car)、深色面包车/厢式货车(van)与行人(pedestrian)相互遮挡的情况, 最优化算法成功地识别出基础算法忽略的中间目标面包车/厢式货车(置信度为 0.84), 验证了卷积注意力模块的对背景和非目标区域的抗干扰能力。
路端目标检测夜间任务可视化结果如图 5 所示。图 5(a)为夜间场景的最优化算法检测结果, 可以注意到, 相对于图 5(b)的真实检测标签, 优化算法在路口端绝大部分检测的置信度大于 0.98, 验证了该算法在夜间检测场景的有效性。然而, 对于图 5(a)行人及障碍物相互遮挡或目标被截断的混淆区域, 检测精度显著下降, 乃至出现漏检的情况, 该现象可以归因于夜间环境下低光照度条件引发的图像噪声增加和特征信息丢失。
为了系统性地分析不同交通流量下的检测效果, 数据集中的路口场景被划分为 3 个不同的类别: 高流量(标签框数量超过 60)、中等流量(标签框数量在 30~60 之间)和低流量(标签框数量小于 30)。通过基于单发多框机制的最优化算法, 对 3 类场景的数据分别训练学习, 检测结果如表 3 所示。
图3 8个检测类别的精度表现
Fig. 3 Accuracy performance in eight detection categories
(a)和(c)为基础算法检测结果, (b)和(d)为最优算法检测结果
图4 路端目标检测日间任务可视化
Fig. 4 Daytime task visualization of roadside object detection
图5 路端目标检测夜间任务可视化
Fig. 5 Nighttime task visualization of roadside object detection
从表 3 可以看出, 在所有车流量场景下, 小汽车的识别精度均维持在较高水平, 其中高流量场景的精度指标 AP@0.5 为 89.17%, 中等流量场景为90.19%, 低流量场景为 87.59%。这一结果表明, 小汽车的识别效果在不同交通流量场景下具有稳定性, 主要原因是小汽车的样本量在数据集中的占比仅次于交通锥桶, 且小汽车类型多样、颜色各异, 增强了算法的泛化能力, 因此小样本误识别对总体精度的影响较小。对于卡车/大货车类别, 其在高流量和中等流量场景中的精度指标 AP@0.5 较为接近, 分别为 81.86%和 83.01%。在低流量场景中, 指标显著下降至 52.41%, 该现象可能源于公交车/大型旅客车、面包车/厢式货车等易与其混淆的类别, 或在路口拍摄位置可能出现镜头畸变或障碍物遮挡, 因而在低样本量条件下, 少量的检测误差对整体精度的影响更显著。
表3 不同车流量的检测结果
Table 3 Detection results for different traffic flow
检测类别AP@0.5/%高流量中等流量低流量 小汽车89.1790.1987.59 自行车83.7189.5286.94 卡车/大货车81.8683.0152.41 面包车/厢式货车79.4884.8083.43 摩托车82.8875.9879.92 公交车/大型旅客车99.0689.4996.59 行人75.5277.7479.77 交通锥桶90.4189.9189.10
总的来看, 在高流量的交通场景中, 注意力模块主要通过其通道注意力部分对关键特征进行聚焦来增强算法对背景噪声和其他目标的抗干扰能力。在低流量场景中, 鉴于目标数量的减少, 注意力模块的空间注意力部分能够有效地辅助算法更精确地定位和识别目标。然而, 因为该场景下样本数量相对偏少, 算法未能在有限的样本上充分地学习到泛化能力, 所以算法的检测性能一定程度上会表现出不稳定性。在中等流量场景中, 卷积块注意力模块得以表现其双重注意力机制的优势, 强调重要的通道, 并聚焦关键的空间位置, 增强捕捉目标局部和整体特征的能力, 从而在路端目标的检测任务上实现高精度的表现。
本研究将数据预处理与轻量级卷积注意力模块引入基于单发多框机制的路端目标检测算法中, 探索不同的算法优化策略对检测任务精度和速度的影响。实验结果表明, 在基础网络提取图像特征的第3 级池化层后加入注意力模块, 可使算法仅在小幅度降低检测速度的情况下, 通过强调重要的通道并聚焦关键的空间位置, 提升信息提取及抗背景干扰能力, 获得显著的精度提升。日间和夜间场景的可视化结果显示, 最优化算法显著地增强各类别检测目标的置信度。不同交通流量下的检测结果表明, 卷积注意力模块适合在中等流量场景下捕捉目标的局部和整体特征。同时, 作为重要的感知任务, 路端目标检测不能只依靠二维的视觉图像, 未来工作中需要从三维点云数据出发, 探究多数据源的融合检测方法。
参考文献
[1] Badue C, Guidolini R, Carneiro R V, et al. Self-driving cars: a survey. Expert Systems with Applications, 2020, 165: 113816
[2] Yurtsever E, Lambert J, Carballo A, et al. A survey of autonomous driving: common practices and emerging technologies. IEEE Access, 2020, 8: 58443–58469
[3] 清华大学智能产业研究院, 百度Apollo. 面向自动驾驶的车路协同关键技术与展望 2.0 [EB/OL]. (2022–12–28)[2024–01–24]. https://air.tsinghua.edu. cn/info/1056/1918.htm
[4] 施巍松, 孙辉, 曹杰等. 边缘计算: 万物互联时 代新型计算算法. 计算机研究与发展, 2017, 54(5): 907–924
[5] Girshick R, Donahue J, Darrell T, et al. Rich feature hierarchies for accurate object detection and semantic segmentation // 2014 IEEE Conference on Computer Vision and Pattern Recognition. Columbus, 2014: 580–587
[6] He K, Zhang X, Ren S, et al. Spatial pyramid pooling in deep convolutional networks for visual recognition. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2015, 37(9): 1904–1916
[7] Girshick R. Fast R-CNN // 2015 IEEE International Conference on Computer Vision (ICCV). Santiago, 2015: 1440–1448
[8] Ren S, He K, Girshick R, et al. Faster R-CNN: towards real-time object detection with region proposal net-works. IEEE Transactions on Pattern Analysis and Ma-chine Intelligence, 2017, 39(6): 1137–1149
[9] Redmon J, Divvala S, Girshick R, er al. You only look once: unified, real-time object detection // 2016 IEEE Conference on Computer Vision and Pattern Recog-nition (CVPR). Las Vegas, 2016: 779–788
[10] He K, Gkioxari G, Dollár P, et al. Mask R-CNN // 2017 IEEE International Conference on Computer Vision (ICCV). Venice, 2017: 2980–2988
[11] Liu W, Anguelov D, Erhan D, et al. SSD: single shot multibox detector // 2016 European Conference on Computer Vision (ECCV). Cham: Lecture Notes in Computer Science, 2016: 21–37
[12] Wu M, Chang C, Miao J, et al. Predicting car accidents with YOLOv7 object detection and object relationships // 2023 IEEE International Conference on Multimedia and Expo Workshops (ICMEW). Brisbane, 2023: 87–89
[13] Wang X, Jin X, Hui F. Roadside object detection algo-rithm based on improved YOLOv7 // 2023 IEEE In-ternational Conference on Smart Internet of Things (SmartIoT). Xining, 2023: 162–168
[14] Fan J, Huo T, Li X, et al. Covered vehicle detection in autonomous driving based on faster RCNN // 2020 39th Chinese Control Conference (CCC). Shenyang, 2020: 7020–7025
[15] Htet K S, Sein M M. Event analysis for vehicle classi-fication using Fast RCNN // 2020 IEEE 9th Global Conference on Consumer Electronics (GCCE). Kobe, 2020: 403–404
[16] Zou Z, Chen K, Shi Z, et al. Object detection in 20 years: a survey. Proceedings of the IEEE, 2023, 111(3): 257–276
[17] Niranjan D R, VinayKarthik B C, Mohana. Perfor-mance analysis of SSD and faster RCNN multi-class object detection model for autonomous driving vehicle research using CARLA simulator // 2021 Fourth Inter-national Conference on Electrical, Computer and Com-munication Technologies (ICECCT). Erode, 2021: 1–6
[18] Choyal S, Singh A K. An acoustic based roadside sym-bols detection and identification using faster RCNN and SSD // 2020 International Conference on Emerging Trends in Communication, Control and Computing (ICONC3). Lakshmangarh, 2020: 1–4
[19] Kim J, Sung J, Park S. Comparison of Faster-RCNN, YOLO, and SSD for real-time vehicle type recognition // 2020 IEEE International Conference on Consumer Electronics-Asia (ICCE-Asia). Seoul, 2020: 1–4
[20] Zhang Z, Wen L, Bian X, et al. Single-shot refinement neural network for object detection // 2018 IEEE/CVF Conference on Computer Vision and Pattern Recogni-tion. Salt Lake City, 2018: 4203–4212
[21] Howard A G, Zhu M, Chen B, et al. MobileNets: efficient convolutional neural networks for mobile vision applications [EB/OL]. (2017–04–17) [2024–04–10]. https://arxiv.org/abs/1704.04861
[22] Woo S, Park J, Lee J, et al. CBAM: convolutional block attention module. Proceedings of the European Confe-rence on Computer Vision (ECCV), 2018, 11211: 3–19
[23] Wang Q, Wu B, Zhu P, et al. ECA-Net: efficient chan-nel attention for deep convolutional neural networks // 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Seattle, 2020: 11531–11539
[24] Simonyan K, Zisserman A. Very deep convolutional networks for large-scale image recognition [EB/OL]. (2015–04–10) [2024–04–01]. https://arxiv.org/abs/14 09.1556
[25] Neubeck A, Van Gool L. Efficient non-maximum sup-pression // 18th International Conference on Pattern Recognition (ICPR06). Hong Kong, 2006: 850–855
[26] Yu H, Luo Y, Shu M, et al. DAIR-V2X: a large-scale dataset for vehicle-infrastructure cooperative 3D ob-ject detection // 2022 IEEE/CVF Conference on Com-puter Vision and Pattern Recognition (CVPR). New Orleans, 2022: 21329–21338
Roadside Object Detection Algorithm Based on Single Shot Multibox Mechanism
Abstract To address the high structural similarity and low feature importance of the roadside image background, the object detection algorithm is improved based on the mechanism of Single Shot Multibox Detector (SSD). By introducing data preprocessing module and lightweight convolutional attention module, and adjusting the position of the attention module in the algorithm, an optimized roadside detection algorithm is established. The roadside object detection task is performed for daytime, nighttime scenarios and different levels of traffic flow, and the experimental results on the vehicle-road collaborative public dataset DAIR-V2X show that adding the attention module after the third pooling layer where the optimized algorithm extracts image features results in a 1.67% improvement in accuracy metrics mAP@0.5:0.95 with only a 2 FPS loss in detection speed, which can meet the speed and accuracy requirements of roadside object detection tasks and enhance the perception capability of the vehicle side.
Key words self-driving cars; object detection; attention module; vehicle-road collaborative technique