1673-159X

CN 51-1686/N

基于YOLOV5与JetsonTX2的航拍场景目标检测

张焕, 刘清华, 路钊, 潘云凡

张焕,刘清华,路钊,等. 基于YOLOV5与JetsonTX2的航拍场景目标检测[J]. 西华大学学报(自然科学版),2025,44(X):1 − 10. doi: 10.12198/j.issn.1673-159X.4955
引用本文: 张焕,刘清华,路钊,等. 基于YOLOV5与JetsonTX2的航拍场景目标检测[J]. 西华大学学报(自然科学版),2025,44(X):1 − 10. doi: 10.12198/j.issn.1673-159X.4955
ZHANG Huan, LIU Qinghua, LU Zhao, et al. Object Detection in Aerial Photography Scene Based on YOLOV5 and JetsonTX2[J]. Journal of Xihua University(Natural Science Edition), 2025, 44(X): 1 − 10.. DOI: 10.12198/j.issn.1673-159X.4955
Citation: ZHANG Huan, LIU Qinghua, LU Zhao, et al. Object Detection in Aerial Photography Scene Based on YOLOV5 and JetsonTX2[J]. Journal of Xihua University(Natural Science Edition), 2025, 44(X): 1 − 10.. DOI: 10.12198/j.issn.1673-159X.4955

基于YOLOV5与JetsonTX2的航拍场景目标检测

作者简介: 张焕(1996—),男,工程师,主要研究方向为深度学习、图像处理、智能博弈对抗。ORCID:0000 − 0002 − 9631 − 7883   E-mail:1084652540@qq.com
基金项目: 国防科学技术预先研究基金项目(KO01071)。

中图分类号: TP183

Object Detection in Aerial Photography Scene Based on YOLOV5 and JetsonTX2

  • 摘要:

    基于卷积神经网络的目标检测技术得到快速发展与应用,但受限于检测速度,其在嵌入式平台大规模部署应用始终棘手,在保证模型精度基础上降低时间复杂度成为目标检测技术主要难题之一。为探索军用领域基于微型处理器的目标自动检测方法,文章基于YOLOv5、DOTA数据集、Jetson TX2对航拍场景军事目标检测系统展开研究。首先,基于DOTA高分辨率航拍场景目标检测数据集在PC端完成YOLOv5模型训练,模型的准确率为54.76%,召回率为81.47%,mAP@0.5达到74.12%;其次,对船舶港口、机场、海港3种潜在军事目标场景进行目标检测分析,在高分辨率航拍场景下仍可以达到较好的检测效果,检测速度达到了181.8 FPS;最后,基于Jetson TX2与无人机设计军事目标检测系统,实现PC端向微处理器端算法移植,在Jetson TX2上完成模型检测,检测速度达到了16.13 FPS。

    Abstract:

    The target detection technology based on convolutional neural network has been rapidly developed and applied. Limited by the detection speed, its large-scale deployment and application on embedded platforms is always difficult. Breaking through the model time complexity on the basis of ensuring model accuracy has become the main problem of target detection technology. one. In order to explore the automatic detection method of targets based on microprocessors in the military field, this paper studies the military target detection system in aerial photography scenes based on YOLOv5, DOTA data set, and JetsonTX2. First, the YOLOv5 model training was completed on the PC side based on the DOTA high-resolution aerial scene target detection data set. The accuracy rate of the model was 54.76%, the recall rate was 81.47%, and the mAP@0.5 reached 74.12%; The target detection and analysis of three potential military target scenarios in the seaport can still achieve good detection results in high-resolution aerial photography scenarios, and the inference speed reaches 181.8FPS. Finally, a military target detection system based on JetsonTX2 and UAV is designed to achieve The algorithm is transplanted from the PC side to the microprocessor side, and the model inference is completed on the JetsonTX2, and the inference speed reaches 16.13FPS.

  • 近年来,预警侦察雷达卫星、无人化作战平台、图像精确制导等得到了快速发展,目标检测算法特别是基于深度学习的目标检测算法得到广泛应用。高效目标检测模型一般在PC端运行实现,然而军用场景大多使用体积小、价格低、稳定性好的嵌入式设备,由于嵌入式设备的计算和存储性能有限,算法的应用和优化受到了很大限制[12]。因此,研究高效目标检测算法、发展先进嵌入式设备,实现模型的嵌入式移植、部署愈加必要。

    传统目标检测方法先运用滑动窗口选取目标候选框,再基于手工设计的特征提取方法,例如SIFT、HOG、Haar-Like等,完成特征提取,这些手工特征只包含了图像原始的颜色、纹理、形状的信息,具有直观、结构简单等特点,已经在实践取得了很好的效果。虽然多种组合能达到一定的精度提升,但是不能本质性地对图像进行描述,信息描述始终不够完备。随着计算机软硬件系统以及深度学习相关理论的发展,基于卷积神经网络的目标检测算法已被更广泛的使用,然而传统目标检测算法的一些策略思想仍值得借鉴。

    基于卷积神经网络的目标检测算法可分为基于区域建议和基于回归思想两类。基于候选区域建议的目标检测算法也称为两阶段法,即先完成目标候选区域的生成,再对候选区域进行目标分类和边界框回归。目前,较优秀的两阶段目标检测算法的有Faster R-CNN[3]、R-FCN[4]、Mask R-CNN[5]、Cascade R-CNN[6]、TridentNet[7]等。基于回归思想的目标检测算法也称为一阶段法,省略了目标候选区域的生成,端到端实现特征提取、目标分类以及边界框回归。目前,较优秀的一阶段目标检测算法有YOLO系列、SSD系列、CenterNet[8]、EfficientDet[9]等。

    Girshick等 [10]于2014年将卷积神经网络用于目标检测,提出了R-CNN算法。不同于使用滑动窗口提取目标候选框的传统目标检测算法,R-CNN采用选择性搜索(selective search)方法进行目标候选框的提取,使用AlexNet作为主干网络(backbone)对目标候选框进行特征提取,最终将得到的特征向量分别用SVM分类器和边界框回归,以完成分类和定位,即目标检测。R-CNN改变了目标检测领域的主要研究思路,其后提出的Fast R-CNN、Faster R-CNN、Mask R-CNN都沿袭了R-CNN的思路。

    R-CNN相对传统目标检测算法取得了巨大的成功,但是采用选择性搜索方法提取2000个候选区域需要逐个输入主干网络进行特征提取,候选区域存在大量的重叠,因此计算和存储存在大量冗余,且AlexNet要求输入为固定尺寸,对2000个候选区域需要通过裁剪(crop)或缩放(wrap),很可能造成目标变形或不完整。基于此,He等 [11]于2014年提出了空间金字塔池化网络(SPP-Net),SPP层作用于末端卷积层和全连接层之间,对特征图划分固定网格进行池化,解决了固定尺寸输入问题和特征重复提取问题,且较R-CNN的检测速度加快。

    SPP-Net解决了固定尺寸输入问题和特征重复提取问题,但是计算过程需要存储大量的特征图,区域建议、特征提取以及分类和回归任务都是相对独立的,空间复杂度较高。基于此,Girshick等将SPP层简化为ROI Pooling,运用Softmax代替SVM分类器,提出了Fast R-CNN。Fast R-CNN将特征提取、分类以及回归运用一个网络完成,使用了多任务损失函数,名义上完成了网络的端到端,检测速度进一步提升。Fast R-CNN进一步整合了检测任务,但是其在特征提取前,仍需要使用选择性搜索得到候选区域,占用了大量的时间,不能完成实时性检测,不是真正意义上的端到端网络。基于此,Ren等使用区域生成网络(RPN)代替选择性搜索,提出了Faster R-CNN。Faster R-CNN完成了区域建议、特征提取、分类和回归的整合,真正意义上实现了检测任务的端到端。

    此后,R-FCN、Mask R-CNN、Cascade R-CNN、TridentNet等算法被提出,都属于两阶段目标检测算法。两阶段检测算法在发展过程中,客服了许多困难,解决了大量的问题。但在大规模应用场景中,两阶段法检测速度慢的问题却始终没有得到根本性的解决,使得其在硬件平台大规模部署应用始终受限,这也是基于区域建议的两阶段目标检测算法的固有缺陷。

    基于区域建议的两阶段目标检测受限于检测速度,使得其在硬件平台大规模部署应用始终棘手。基于回归思想的目标检测算法不需要进行区域建议生成目标候选框,而是利用回归的思想输出目标类别和边界框。目前,基于回归思想的目标检测算法代表有SSD系列、YOLO系列、RetinaNet、CornerNet、CenterNet、EfficientDet等。2020年新提出的YOLOv4,以及Ultralytics公司在Github上开源的YOLOv5都在原基础上进一步加快了检测速度,其中YOLOv5-s在GPU下的检测速度最高达到了416 FPS,能够完成实时性目标检测任务。

    着眼于工程实际部署应用,基于回归思想的目标检测算法模型向着轻量化设计趋势发展,其时间复杂度普遍低于基于区域建议的目标检测算法,并逐渐在检测精度上完成了赶超。未来,着眼于嵌入式等微处理器硬件平台的大规模部署,受限于硬件计算速度,拥有更低时间复杂度的基于回归思想的目标检测算法更具优势。

    Redmon等提出了YOLOv1[12](You only look once),其核心思想是将整张图像作为输入,直接对边界框和类别进行回归输出。YOLO省去了区域建议的过程,因此检测速度大大加快,在NVIDIA TITAN X下达到了45 FPS。YOLOv1对输入图像进行了S×S网格划分,每个网格设置B个目标候选框,每个候选框包括边界框、置信度即(xywh,score)5个维度信息。待检测物体的中心坐标所在的网格,负责该物体的检测。最终输出尺寸为S×S×(B×5+C)的特征图,C为类别数。若设置S=7,B=2,C=20,即输出7×7×30的特征图,完成边界框和类别的回归。

    YOLOv1完成了端到端的一阶段目标检测,但是,其网格划分较粗糙、候选框数量较少使得对紧邻目标以及小目标的检测误差较大,且整体精度不够高。

    Redmon等于2017年在YOLOv1的基础上进行了改进,提出了YOLOv2[13]。首先,YOLOv2使用了一种聚类方法学习到的Anchor Boxes来完成边界框预测,使得不同大小的边界框同等损失衡量;其次,引入了边界参数约束,完成了边界框的尺度和位置预测修正,在网络架构上,使用了基于GoogLeNet架构的Darknet-19,且使用了批量归一化(batch normalization)。

    YOLOv2的一系列改进使得检测精度更高、速度更快以及完成分类更多,在VOC2007数据集上的检测准确率最高达到了78.6%,检测速度最高达到了91 FPS,且完成了9000中不同对象的分类,因此YOLOv2也称为YOLO9000。

    Redmon等于2018年对YOLO进一步改进,提出了YOLOv3[14]。首先,YOLOv3使用了Darknet-53作为骨干网络,Darknet-53精度效果与ResNet-101相媲美,且速度更快;其次,YOLOv3吸收了FPN思路,在不同大小的特征图中进行多尺度预测,有效地提升了小目标检测效果;在分类器上使用二元交叉熵代替Softmax,可对同一个边界框预测多种分类。

    YOLOv3的一系列改进使得检测精度进一步提升,在COCO数据集上最高达到了57.9%的平均检测精度(mAP-50),且对不同尺度的小、中、大目标检测效果都较好,具有很强的适应性。

    Bochkovskiy等提出了YOLOv4[15]。YOLOv4总结了目标检测领域经典方法,验证了检测方向的多种SOTA(state-of-art),综合了多种目标检测策略,使用了感知野更广、参数量更多的CSPDarknet53作为骨干网络,同时使用PANet代替YOLOv3所使用的FPN完成多通道融合。最终,通过融合一系列调参技巧,模型可以在仅带有单一GPU的1080Ti或2080Ti上训练完成。YOLOv4在COCO数据集上最高达到了64.9%的平均检测精度(mAP-50),对不同尺度的小、中、大目标检测具有更强的适应性。

    Ultralytics公司于2020年在GitHub上开源了YOLOv5,YOLOv5包含YOLOv5s、YOLOv5m、YOLOv5l、YOLOv5x等4个不同大小的模型,参照了EfficientNet的通道(channel)、层(layer)控制因子达到配置不同复杂度的模型,以应对不同的目标检测任务。YOLOv5在COCO数据集上最高达到了66.6%的平均检测精度(mAP-50),这是目前在COCO数据集上得到的最高检测精度。同时,YOLOv5s在GPU上达到了416 FPS的检测速度。

    为搭建航拍场景军事目标检测系统,经多方面考虑以及平台选型,最终基于离线学习、图像采集以及在线检测方法,提出了一种目标检测系统,设计方案如图1所示。

    1)在高性能计算平台完成目标检测算法模型训练,达到预期检测精度、速度要求后,将训练好的模型参数、模型实现代码移植拷贝到嵌入式平台,并在嵌入式平台中配置模型可运行的环境,完成PC端模型到嵌入式平台的移植。

    2)基于无人机WiFi摄像头对场景图像进行采集,并实时传输到嵌入式平台。

    3)嵌入式平台完成对输入图像的检测,并输出保存。

    图  1  嵌入式目标检测系统设计方案
    Figure  1.  Design scheme of the embedded object detection system

    此方案使用离线学习解决了模型训练的问题,将训练好的模型移植到嵌入式平台,其后运用WiFi摄像头进行图像采集,并传输到嵌入式平台完成图像的检测与输出。

    PC端的高性能处理器能够很好的完成模型训练任务,但其往往成本昂贵,且硬件结构庞大,难以在高机动性的战场环境下大规模应用。因此,体积小、成本可控且能以一定速度和精度完成检测任务的嵌入式平台相当契合军事场景下的检测任务。

    当下,能够完成高并发运算的嵌入式核心器件主要有FPGA、嵌入式神经网络处理器(NPU)、嵌入式GPU等。FPGA的运算能力较强大,但是 FPGA不擅长做浮点运算,这与卷积神经网络模型训练相悖;NPU采取了“数据驱动并行计算”的方式,符合高并发运算模式,但是其面世时间很短,技术积累以及案例对比少,目前实现起来较难;嵌入式GPU传承了PC端GPU的优点,且解决了小型化的问题,是目前较为合适的深度学习嵌入式平台解决方案。

    基于对YOLOv5模型规模的考虑,NVIDIA公司研发生产的Jetson TX2核心板能够满足任务要求。其参数配置如表1所示。

    表  1  Jetson TX2核心板参数配置
    Table  1.  Jetson TX2 Core board parameter configuration
    指标 参数配置
    尺寸 87 mm×50 mm
    GPU 256个NVIDIA CUDA核心
    显存 8 GB
    存储 32 GB
    摄像头 12通道MIPI,CSI-2,D-PHY1.2
    架构 NVIDIA PascalTM架构
    下载: 导出CSV 
    | 显示表格

    武汉大学的Xia等公开了DOTA数据集[16],这些图像来源于不同的传感器及平台,包括谷歌地球、JL-1卫星拍摄、GF-2卫星拍摄。DOTA数据集中包含15个类别的2806张航空图像,每张图像包含多个目标,共包含188282个实例。DOTA数据集的分辨率由800×800到4000×4000不等,其标注方式为四点确定形状方向的四边形。

    DOTA数据集中15个类别包含小型车辆(small-vehicle)、大型车辆(large-vehicle)、飞机(plane)、储罐(storage tank)、船舶(ship)、港口(harbor)、地面跑道(ground track field)、足球场(soccer ball field)、网球场(tennis court)、游泳池(swimming-pool)、棒球场(baseball diamond)、环形交叉路口(roundabout)、篮球场(basketball court)、桥梁(bridge)、直升机(helicopter)等。DOTA数据集的15个类别的图例如图2所示。

    图  2  DOTA数据集
    Figure  2.  DOTA data set

    DOTA数据集图像分辨率大小不一致,为了适应YOLOv5的训练要求,对原始图像按照目标分布位置进行图像分割,得到若干包含目标的子图像,并将所有子图像的分辨率调整成1024×1024

    DOTA数据集的标签与YOLOv5的输入要求不一致,编写脚本语言批量转换数据标签的格式,原始标签与转换后的标签如图3所示。

    图  3  DOTA标签格式与YOLOv5标签输入格式
    Figure  3.  DOTA label format and YOLOv5 label input format

    DOTA标签格式中,(x1-x4)、(y1-y4)表示图像标注的4个点坐标,class为类别,difficulty表示检测难度(0/1表示简单/困难);YOLOv5标签输入格式中,class为类别,x_center表示框中心x坐标与图像宽度比值,y_center表示框中心y坐标与图像高度比值,width表示框宽度与图像宽度比值,height表示框高于图像高度比值。DOTA数据集完成图像分割和标签转换后,将其分为训练集和测试集,其中训练集共包含15749张图像,测试集共包含5297张图像。

    本文使用查准率(precision,P)、查全率(recall,R)、mAP(mean average precision)、GIoU等指标来对目标检测的结果进行度量。为对上述度量指标进行说明,绘制了分类混淆矩阵如表2所示。

    表  2  分类混淆矩阵
    Table  2.  Classification confusion matrix
    真实结果预测结果
    正例反例
    正例TP(真阳性)FN(假阴性)
    反例FP(假阳性)TN(真阴性)
    下载: 导出CSV 
    | 显示表格

    查准率和查全率通常是一对矛盾度量,一方较高时,另一方往往较低,本文绘制P-R曲线对模型进行直观地评估分析,PR分别定义为:

    $$ {P}=\frac{{\mathrm{TP}}}{{\mathrm{TP}}+{\mathrm{FP}}} $$ (1)
    $$ {R}=\frac{{\mathrm{TP}}}{{\mathrm{TP}}+{\mathrm{FN}}} $$ (2)

    P-R曲线求积分得到平均精度(average precision,AP),mAP是对多个类别的平均精度求均值,其取值范围为[0,1],mAP越大,模型效果越好。

    GIoU[17]是Hamid等于2019年基于交并比(IoU)提出的一种对尺度不敏感的目标检测评估指标,也是一种新的边界框回归损失计算方法。IoU和GIoU可由式(3)(4)表示,其中AB为预测和真实边界框,C为包含AB的最小封闭框。当GIoU≤IoU,IoU取值[0,1],GIoU取值[−1,1]。

    $$ \mathrm{I}\mathrm{o}\mathrm{U}=\frac{\left|A\cap B\right|}{\left|A\cup B\right|} $$ (3)
    $$ \mathrm{G}\mathrm{I}\mathrm{o}\mathrm{U}=\mathrm{I}\mathrm{o}\mathrm{U}-\frac{\left|C\backslash (A\cup B)\right|}{\left|C\right|} $$ (4)

    基于YOLOv5的航拍场景军事目标检测仿真环境如表3所示;仿真设计以及参数配置相关信息如表4所示。

    表  3  仿真运行环境
    Table  3.  Simulation running environment
    名称配置
    操作系统Ubuntu18.04
    运行框架Pytorch
    显卡型号NVIDIA Geforce RTX2080Ti
    处理器Inter(R) Core(TM) i7-10700 2.90GHZ
    下载: 导出CSV 
    | 显示表格
    表  4  仿真设计及参数配置相关信息
    Table  4.  Information related to the simulation design and the parameter configuration
    参数设计MSTAR/自制/UCMerced数据集
    预训练权重YOLOv5s
    批量数(batch_size)8
    图像尺寸(img_size)1024×1024×3
    总训练轮数(epoch)100
    学习率(lr)0.01
    余弦退火系数(lrf)0.2
    学习率动量(momentum)0.937
    权重衰减(weight_decay)0.0005
    边界框损失系数(GIoU)0.05
    分类损失系数(cls)0.5
    有无物体损失系数(obj)1.0
    IoU阈值0.2
    下载: 导出CSV 
    | 显示表格

    在PC端采用YOLOv5s预训练权重,批量数设置为8,其余参数配置如表4所示,训练轮数100,花费总时间为9.591 h。模型准确率、召回率以及mAP随训练轮数变化曲线如图4所示。

    图  4  P/R/mAP随训练轮数变化曲线
    Figure  4.  The P/R/mAP curve varies with the number of training rounds

    图4可知,训练100轮后,模型的准确率为54.76%,召回率为81.47%。判定IoU为正负样本的阈值设置为0.5时,mAP@0.5达到了74.12%;阈值设定为0.5:0.95,步长0.05,即0.5、0.55、0.6、0.65、0.7、0.75、0.8、0.85、0.9、0.95时得到的平均mAP@0.5:0.95为46.89%。

    模型训练完成后,保存效果好的权重文件,对已标注的5297张测试集进行模型效果测试评估,准确度(P)为54%,召回率(R)80.9%,mAP@0.5为74%,mAP@0.5:0.95为47.1%;在模型时间复杂度评估上,batch_size设置为8,平均检测时间为4.4 ms,运用非极大值抑制(NMS)进行边界框剔除平均花费时间1.1 ms,即一张1024×1024图像完整平均检测时间为5.5 ms,即181.8 FPS。运用保存好的权重文件,对未经裁剪的原尺寸图像进行逐张检测,检测的输入尺寸统一调整为640。以下将选取一些场景对预测的准确度以及检测时间进行分析。

    以目标量较多且密集的船舶港口为主要场景,分辨率为1407×1099的原图及其检测结果如图56表示,其检测时间为0.010 s,即100 FPS。统计其原始标注文件,得到真实标注类别数和实际检测时检测到的类别数如表5所示。

    图  5  船舶港口场景
    Figure  5.  Ship port scene
    图  6  船舶港口场景检测结果
    Figure  6.  Inspection results of the ship and port scene
    表  5  目标量较大的船舶港口场景检测结果
    Table  5.  Inspection results of the ship and port scene with a large target volume
    类别原图标注/个实际检测/个
    小型汽车19443
    轮船349242
    港口1914
    游泳池11
    下载: 导出CSV 
    | 显示表格

    表5图56可知,在多目标船舶港口场景下,轮船及港口得到了较好的检测效果,但对小型汽车的检测效果欠佳,这很可能是由于小型汽车在该图像中的目标特征过小且过于密集而造成的。图像中红圈部分的小型汽车都没能检测出来,但某些特征很小的目标仍然被检测了出来,如图中红色箭头指向的游泳池以及图像边缘的小型汽车得到了准确地检测。

    以目标量相对稀疏的机场为主要场景,分辨率为3328×3072的原图及其检测结果如图78所示,其检测时间为0.022 s,即45.5 FPS。统计其原始标注文件,得到真实标注类别数和实际检测到的类别数如表6所示。

    表6图78可知,在目标较为稀疏的机场场景下,飞机以及储罐得到了较好的检测效果,但对大型汽车和桥梁没能检测出来。飞机在此图中的特征已经较小,其中4架特征较小的飞机没能检测出来。大型汽车在该图像中特征更小且密集,桥梁目标仅出现一小半特征,且位于图像边缘,因此它们都没能被检测出来。值得肯定的是,图中红色箭头所指向的储罐被100%检测出来

    图  7  机场场景
    Figure  7.  Airport scene
    图  8  机场场景检测结果
    Figure  8.  Airport scene detection results
    表  6  目标量相对稀疏的机场场景检测结果
    Table  6.  Airport scene detection results with a relatively sparse target amount
    类别原图标注/个实际检测/个
    大型汽车370
    储罐88
    飞机2420
    桥梁10
    下载: 导出CSV 
    | 显示表格

    以目标较小且稀疏的海港为主要场景,分辨率为4467×4348的原图及其检测结果如图910所示,其检测时间为0.008 s,即125 FPS。统计其原始标注文件,得到真实标注类别数和实际检测到的类别数如表7所示。

    图  9  海港场景
    Figure  9.  Seaport scene
    图  10  海港场景检测结果
    Figure  10.  Harbour scene test results
    表  7  目标量相对稀疏的机场场景检测结果
    Table  7.  Airport scene detection results with a relatively sparse target amount
    类别原图标注/个实际检测/个
    船舶187
    港口43
    足球场10
    网球场20
    篮球场90
    地面跑道11
    下载: 导出CSV 
    | 显示表格

    表7图910可知,目标较小且稀疏的海港的机场场景下,特征较大的港口得到了较好的检测效果,船舶目标过小,因此检测效果一般。地面跑道相对拥有较大的特征,被很好的检测了出来。而对于足球场、篮球场、网球场目标,一是特征过小,而是它们对应的训练样本过少,模型对它们缺少更深的“了解”。

    对Jetson TX2刷机进行系统配置,然后完成模型运行环境配置。所有参数设置与PC端保持一致,再次对船舶港口场景、机场场景、海港场景下的3张图像进行检测。Jetson TX2嵌入式平台与PC端检测结果对比如表8所示。

    表8知,Jetson TX2嵌入式平台与PC端的检测结果保持一致,检测速度大大下降,这与实际工作GPU性能相挂钩。上述检测过程都是采用大分辨航拍场景原图输入,并调整尺寸到640。在实际军事应用中,为了提高检测速度,除了从更换性能更高的嵌入式平台角度考虑,还可以图像输入尺寸考虑。

    表  8  Jetson TX2与PC端检测结果对比
    Table  8.  Jetson TX2 Comparison with the PC terminal test results
    图像场景二者检测结果PC端检测时间TX2检测时间
    船舶港口一致0.0100.130
    机场一致0.0220.106
    海港一致0.0080.128
    下载: 导出CSV 
    | 显示表格

    选择图像的中心部分进行裁剪,以确保重要的内容被保留, 在Jetson TX2平台上对裁剪图像进行检测,并将输入尺寸分别调整为640与320,检测时间对比如表9所示。3种场景下不同尺寸输入的实际检测效果如图1113所示、表1112所示。

    表  9  图像输入尺寸640/320的检测速度
    Table  9.  Detection speed at image input size of 640 / 320
    裁剪基准图像裁剪尺寸640检测时间320检测时间
    船舶港口场景6400.1190.068
    机场场景12800.1160.054
    海港场景12800.1170.064
    下载: 导出CSV 
    | 显示表格
    图  11  港口输入尺寸640/320的检测结果
    Figure  11.  Port input test results for size 640 / 320
    图  12  机场输入尺寸为640/320的检测结果
    Figure  12.  The detection result of airport input size 640 / 320
    图  13  海港输入尺寸为640/320的检测结果
    Figure  13.  The detection result of port input size is 640/320
    表  10  港口输入尺寸为640/320的检测结果统计
    Table  10.  Statistics of test results with port input size of 640/320
    检测结果统计输入尺寸640输入尺寸320
    小型汽车4017
    船舶139135
    港口77
    下载: 导出CSV 
    | 显示表格
    表  11  机场输入尺寸为640/320的检测结果统计
    Table  11.  Statistics of test results with airport input size 640 / 320
    检测结果统计输入尺寸640输入尺寸320
    飞机87
    下载: 导出CSV 
    | 显示表格
    表  12  海港输入尺寸为640/320的检测结果统计
    Table  12.  Statistics of test results with port input size 640/320
    检测结果统计输入尺寸640输入尺寸320
    船舶115
    港口20
    地面跑道11
    足球场11
    篮球场60
    下载: 导出CSV 
    | 显示表格

    表9可知,在Jetson TX2嵌入式平台上,缩小检测输入尺寸可加快检测速度,当输入尺寸调整为320,3张图像平均检测速度为16.13 FPS。

    图11表10可知,在船舶港口场景下,缩小输入尺寸对港口的检测个数没有影响,这可能与港口相对尺度较大有关;相对尺度较小的小型汽车检测结果受影响较大,由40辆下降为17辆;船舶的相对尺度介于二者之间,检测个数由139下降为135,受影响较小。

    图12表11可知,在机场场景下,缩小输入尺寸后,漏检了1架排列较密集、相对尺度较小的飞机。

    图13表12可知,在机场场景下,缩小输入尺寸后,相对尺度较小的船舶、港口、篮球场的检测结果变差,而地面跑道、足球场仍能被检测出来。

    综上,对大分辨率图像进行裁剪,并调整到一定尺寸进行检测,这样可缩小了输入尺寸,加快检测速度。在Jetson TX2嵌入式平台上,缩小检测输入尺寸可加快检测速度,但检测效果会有不同程度的下降;对于相对尺度较大的目标,其检测结果受影响较小,相对尺度较小的目标则受影响较大。

    本文对基于区域建议、基于回归思想的目标检测算法以及多YOLO系列目标检测算法进行了介绍;基于DOTA数据集,对YOLOv5进行了模型训练,训练100轮后,模型的准确率为54.76%,召回率为81.47%,mAP@0.5达到了74.12%;对船舶港口、机场、海港3种潜在军事目标场景进行了检测分析,在高分辨率航拍场景下仍可以达到较好的检测效果,且测试平均速度达到了181.8 FPS;基于Jetson TX2与无人机搭建了航拍军事目标检测系统,并在Jetson TX2上完成了模型检测过程,缩小图像输入尺寸后,检测速度达到了16.13 FPS。

    YOLOv5作为目前最高效的目标检测算法之一,对样本较充足、特征较大的目标检测拥有很高的准确率,同时检测速度很快。本文采用航拍场景的数据集,视距大,单张图像目标量多,目标特征小,使得目标检测难度加大。为提高航拍场景下目标检测的精度,除去对模型的考虑,首先应该获取到样本量足够大且均衡的数据集;其次,对于目标特征尺度要有把握,特征过小而检测不出来的目标可以先进行分割放大,再进行检测。后续进一步关注卷积神经网络模型轻量化以及模型压缩技术,采用多尺度检测方法提高检测精度,在兼容成本的同时,寻求体积小、性能高适合军事应用场景的嵌入式深度学习平台,促进支撑军事目标自动识别技术部署应用。

  • 图  1   嵌入式目标检测系统设计方案

    Figure  1.   Design scheme of the embedded object detection system

    图  2   DOTA数据集

    Figure  2.   DOTA data set

    图  3   DOTA标签格式与YOLOv5标签输入格式

    Figure  3.   DOTA label format and YOLOv5 label input format

    图  4   P/R/mAP随训练轮数变化曲线

    Figure  4.   The P/R/mAP curve varies with the number of training rounds

    图  5   船舶港口场景

    Figure  5.   Ship port scene

    图  6   船舶港口场景检测结果

    Figure  6.   Inspection results of the ship and port scene

    图  7   机场场景

    Figure  7.   Airport scene

    图  8   机场场景检测结果

    Figure  8.   Airport scene detection results

    图  9   海港场景

    Figure  9.   Seaport scene

    图  10   海港场景检测结果

    Figure  10.   Harbour scene test results

    图  11   港口输入尺寸640/320的检测结果

    Figure  11.   Port input test results for size 640 / 320

    图  12   机场输入尺寸为640/320的检测结果

    Figure  12.   The detection result of airport input size 640 / 320

    图  13   海港输入尺寸为640/320的检测结果

    Figure  13.   The detection result of port input size is 640/320

    表  1   Jetson TX2核心板参数配置

    Table  1   Jetson TX2 Core board parameter configuration

    指标 参数配置
    尺寸 87 mm×50 mm
    GPU 256个NVIDIA CUDA核心
    显存 8 GB
    存储 32 GB
    摄像头 12通道MIPI,CSI-2,D-PHY1.2
    架构 NVIDIA PascalTM架构
    下载: 导出CSV

    表  2   分类混淆矩阵

    Table  2   Classification confusion matrix

    真实结果预测结果
    正例反例
    正例TP(真阳性)FN(假阴性)
    反例FP(假阳性)TN(真阴性)
    下载: 导出CSV

    表  3   仿真运行环境

    Table  3   Simulation running environment

    名称配置
    操作系统Ubuntu18.04
    运行框架Pytorch
    显卡型号NVIDIA Geforce RTX2080Ti
    处理器Inter(R) Core(TM) i7-10700 2.90GHZ
    下载: 导出CSV

    表  4   仿真设计及参数配置相关信息

    Table  4   Information related to the simulation design and the parameter configuration

    参数设计MSTAR/自制/UCMerced数据集
    预训练权重YOLOv5s
    批量数(batch_size)8
    图像尺寸(img_size)1024×1024×3
    总训练轮数(epoch)100
    学习率(lr)0.01
    余弦退火系数(lrf)0.2
    学习率动量(momentum)0.937
    权重衰减(weight_decay)0.0005
    边界框损失系数(GIoU)0.05
    分类损失系数(cls)0.5
    有无物体损失系数(obj)1.0
    IoU阈值0.2
    下载: 导出CSV

    表  5   目标量较大的船舶港口场景检测结果

    Table  5   Inspection results of the ship and port scene with a large target volume

    类别原图标注/个实际检测/个
    小型汽车19443
    轮船349242
    港口1914
    游泳池11
    下载: 导出CSV

    表  6   目标量相对稀疏的机场场景检测结果

    Table  6   Airport scene detection results with a relatively sparse target amount

    类别原图标注/个实际检测/个
    大型汽车370
    储罐88
    飞机2420
    桥梁10
    下载: 导出CSV

    表  7   目标量相对稀疏的机场场景检测结果

    Table  7   Airport scene detection results with a relatively sparse target amount

    类别原图标注/个实际检测/个
    船舶187
    港口43
    足球场10
    网球场20
    篮球场90
    地面跑道11
    下载: 导出CSV

    表  8   Jetson TX2与PC端检测结果对比

    Table  8   Jetson TX2 Comparison with the PC terminal test results

    图像场景二者检测结果PC端检测时间TX2检测时间
    船舶港口一致0.0100.130
    机场一致0.0220.106
    海港一致0.0080.128
    下载: 导出CSV

    表  9   图像输入尺寸640/320的检测速度

    Table  9   Detection speed at image input size of 640 / 320

    裁剪基准图像裁剪尺寸640检测时间320检测时间
    船舶港口场景6400.1190.068
    机场场景12800.1160.054
    海港场景12800.1170.064
    下载: 导出CSV

    表  10   港口输入尺寸为640/320的检测结果统计

    Table  10   Statistics of test results with port input size of 640/320

    检测结果统计输入尺寸640输入尺寸320
    小型汽车4017
    船舶139135
    港口77
    下载: 导出CSV

    表  11   机场输入尺寸为640/320的检测结果统计

    Table  11   Statistics of test results with airport input size 640 / 320

    检测结果统计输入尺寸640输入尺寸320
    飞机87
    下载: 导出CSV

    表  12   海港输入尺寸为640/320的检测结果统计

    Table  12   Statistics of test results with port input size 640/320

    检测结果统计输入尺寸640输入尺寸320
    船舶115
    港口20
    地面跑道11
    足球场11
    篮球场60
    下载: 导出CSV
  • [1] 马晨. 基于嵌入式系统的深度神经网络目标检测算法研究[D]. 长春: 吉林大学, 2021.

    MA C. Research on deep neural network target detection algorithm based on embedded system[D]. Changchun: Jilin University, 2021.

    [2] 杨天鹏. 目标检测算法在嵌入式系统中的设计与实现[D]. 北京: 北京邮电大学, 2021.

    YANG T P. Design and implementation of target detection algorithm in embedded system[D]. Beijing: Beijing University of Posts and Telecommunications, 2021.

    [3]

    REN S Q, HE K M, GIRSHICK R, et al. Faster R-CNN: towards real-time object detection with region proposal networks[C]//IEEE Transactions on Pattern Analysis and Machine Intelligence.[S.l.]: IEEE, 2017: 1137 − 1149.

    [4]

    DAI J F, LI Y, HE K M, et al. R-FCN: object detection via region-based fully convolutional networks[EB/OL]. 2016: arXiv: 1605.06409. http://arxiv.org/abs/1605.06409.

    [5]

    HE K M, GKIOXARI G, DOLLÁR P, et al. Mask R-CNN[C]//2017 IEEE International Conference on Computer Vision (ICCV). Venice:IEEE, 2017: 2980 −2988.

    [6]

    CAI Z W, VASCONCELOS N. Cascade R-CNN: delving into high quality object detection[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City:IEEE, 2018: 6154 − 6162.

    [7]

    LI Y H, CHEN Y T, WANG N Y, et al. Scale-aware trident networks for object detection[C]//2019 IEEE/CVF International Conference on Computer Vision (ICCV). Seoul:IEEE, 2019: 6053 − 6062.

    [8]

    DUAN K W, BAI S, XIE L X, et al. CenterNet: keypoint triplets for object detection[EB/OL]. 2019: arXiv: 1904.08189. http://arxiv.org/abs/1904.08189.

    [9]

    TAN M X, PANG R M, LE Q V. EfficientDet: scalable and efficient object detection[EB/OL]. 2019: arXiv: 1911.09070. http://arxiv.org/abs/1911.09070.

    [10]

    GIRSHICK R, DONAHUE J, DARRELL T, et al. Rich feature hierarchies for accurate object detection and semantic segmentation[C]//2014 IEEE Conference on Computer Vision and Pattern Recognition. Columbus:IEEE, 2014: 580 − 587.

    [11]

    HE K M, ZHANG X Y, REN S Q, et al. Spatial pyramid pooling in deep convolutional networks for visual recognition[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2015, 37(9): 1904 − 1916. doi: 10.1109/TPAMI.2015.2389824

    [12]

    REDMON J, DIVVALA S, GIRSHICK R, et al. You only look once: unified, real-time object detection[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Las Vegas:IEEE, 2016: 779 − 788.

    [13]

    REDMON J, FARHADI A. YOLO9000: better, faster, stronger[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Honolulu:IEEE, 2017: 6517− 6525.

    [14]

    REDMON J, FARHADI A. YOLOv3: an incremental improvement[EB/OL]. 2018: arXiv: 1804.02767. http://arxiv.org/abs/1804.02767.

    [15]

    BOCHKOVSKIY A, WANG C Y, LIAO H Y M. YOLOv4: optimal speed and accuracy of object detection[EB/OL]. 2020: arXiv: 2004.10934. http://arxiv.org/abs/2004.10934.

    [16]

    XIA G S, BAI X, DING J, et al. DOTA: a large-scale dataset for object detection in aerial images[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City:IEEE, 2018: 3974−3983.

    [17]

    REZATOFIGHI H, TSOI N, GWAK J, et al. Generalized intersection over union: a metric and a loss for bounding box regression[C]//2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Long Beach:IEEE, 2019: 658− 666.

图(13)  /  表(12)
计量
  • 文章访问数:  34
  • HTML全文浏览量:  8
  • PDF下载量:  9
  • 被引次数: 0
出版历程
  • 收稿日期:  2024-07-19

目录

/

返回文章
返回