现在的位置:主页 > 期刊导读 >

基于改进YOLOv3-LITE轻量级神经网络的柑橘识别(3)

来源:果树资源学报 【在线投稿】 栏目:期刊导读 时间:2020-10-13

【作者】:网站采编
【关键词】:
【摘要】:注:黑色矩形代表预测的边界框,灰色矩形代表原始标记的边界框。Note: The black rectangle represents the predicted bounding box; the gray rectangle represents the original ma

注:黑色矩形代表预测的边界框,灰色矩形代表原始标记的边界框。Note: The black rectangle represents the predicted bounding box; the gray rectangle represents the original marker's bounding box.图1 两个矩形重叠示意Fig.1 Diagram of two overlapping rectangles

(2)

(3)

(4)

(5)

式中A和B为任意两个矩形框,C为包围A、B矩形框的最小外接矩形,S为A,B所在空间,A, B S∈。

2.2.2 YOLOv3-LITE网络模型设计

传统YOLOv3采用自定义骨干网络Darknet-53,模型计算复杂,对存储空间要求较高,在GPU上一张416×416的图片推断速度为30 ms,在CPU上推断速度为255.8 ms。该文提出一种实时目标检测的轻量级神经网络模型,在传统YOLOv3网络的基础上,设计了YOLOv3-LITE网络,在GPU上的推断速度可达16.9 ms,在CPU上推断速度可达80.9 ms。MobileNet[35]是一种基于移动端的轻量级神经网络,该文使用MobileNet-v2[36]轻量级神经网络作为YOLOv3-LITE的骨干网络,MobileNet-v2网络模型采用反残差模块与深度可分离卷积结合,首先通过1×1卷积提升通道数,后通过3×3卷积进行Depthwise convolution(深度卷积),再用1×1卷积降低维度。MobileNet-v1使用ReLU6替换ReLU激活函数,控制线性增长部分。MobileNet-v2将非线性激活函数ReLU6去掉,即不使用激活函数,直接线性输出,减少了信息丢失。其深度可分离卷积层具体结构如图2所示,图中采用输入为RGB三通道图片,MobileNet-v2在Depthwise convolution之前添加一层升通道卷积层(逐点卷积),添加了这一层升通道卷积之后,Depthwise convolution的Filter数量取决于升通道卷积之后的通道数,而这个通道数是可以任意指定的,因此解除了3×3卷积核个数的限制。将普通卷积用深度可分离卷积代替,使得计算量大大降低,同时可以通过增加通道数来提升模型的精度,对速度和精度有较好的提升,且便于迁移到嵌入式以及移动设备等较小系统上。YOLOv3最突出的特点是它可以在3种不同的尺度上进行检测,从75到105层为YOLO网络的特征交互层,分为3个尺度,每个尺度内,通过卷积核的方式实现局部的特征交互,作用类似于全连接层。为避免采用MobileNet-v2网络会对小目标检测精度降低,该文将特征图融合改为在19、34层做深度连接,对于输入为416×416的图像,卷积网络在53层后,经过卷积得到13×13的特征图,这里的特征图感受野较大,适合检测尺寸比较大的对象,即第1次预测输出;为实现细粒度的检测,卷积层53层的特征图往右开始上采样,得到与34层相同分辨率的特征图,经过残差模块然后与34层特征图融合,故65层经卷积后得到26×26的特征图,具有中等尺寸的感受野,适合检测中等尺寸的对象;最后65层特征图再次上采样,得到与19层相同分辨率的特征图,经过残差模块然后与19层特征图融合,最后得到相对输入图像8倍下采样得到52×52的特征图,此时感受野较小,适合检测小尺寸的对象,具体结构如图3,网络参数如表2所示。

图2 深度可分离卷积层结构示意Fig.2 Structure diagram of depth wise separable convolutional layer

注:图3中深度可分离卷积块的单层结构如图2所示。Note: The single-layer structure of depthwise separable convolutional blocks used in this figure is shown in Fig.2.图3 YOLOv3-LITE结构Fig.3 Structure diagram of YOLOv3-LITE

2.2.3 一种混合训练与迁移学习结合的预训练方式

在自然环境下,柑橘目标遮挡情况严重,且由于样本集数据涵盖的场景有限,只识别单一类别的柑橘将使得模型泛化能力受限。该文使用一种为训练目标检测网络而设计的视觉相干图像混合方法(visually coherent image mixup),该方法可以有效提升模型的泛化能力,减少过拟合问题。Mixup是指将2张输入图像按照一定权重合并成一张图像,基于这种合成图像进行训练的模型更加鲁棒,可以达到目标遮挡的效果,能够有效降低图像之间差异性的影响,如图4所示。迁移学习(transfer learning)是把已训练好的模型学习到的知识迁移到新的模型来帮助新模型训练。Yosinski等[32]通过迁移学习试验并可视化证明底层的卷积神经网络能够学习到物体的通用特征,例如几何变化、边缘、色彩变化等,而高层网络则负责提取特定的特征细节。小数据集通过迁移学习也能够达到较好的训练效果。该文采用混合训练的方式对COCO数据集进行预训练,通过迁移学习将模型从COCO数据集学习到的知识迁移到柑橘图像识别中,通过冻结部分卷积层,使得在反向传播修正模型参数时只对部分卷积层进行修正模型参数,使用迁移学习与混合训练结合的方式,降低了模型训练的时间和节省了内存消耗,柑橘目标识别效果提升明显。

文章来源:《果树资源学报》 网址: http://www.gszyxb.cn/qikandaodu/2020/1013/483.html

上一篇:果树在动物园景观绿化中的应用
下一篇:果树在园林绿化建设中的应用探讨

果树资源学报投稿 | 果树资源学报编辑部| 果树资源学报版面费 | 果树资源学报论文发表 | 果树资源学报最新目录
Copyright © 2018 《果树资源学报》杂志社 版权所有
投稿电话: 投稿邮箱: