简介

在计算机视觉和图像处理中,目标分类是非常重要的。近年来,细粒度视觉分类(FGVC)研究取得了持续稳定的进展。一方面,很多深度神经网络123.45678随着学习能力的提高,可以识别高度相似物体之间的细微差别。另一方面,大量的细粒度图像数据集,包括鸟类物种9、汽车10、飞机11、超细粒度(UFG)12,由领域专家收集。在这些数据集中,复杂规则被用来衡量对象分类方法的准确性,也有利于改进更好的算法。

FGVC的关键步骤是从显著区域学习判别信息。现有的FGVC方法分为两类。第一组方法13拟优化神经网络结构,从显著区域学习判别信息。第二组的方法14尝试通过边界框或部分注释机制来定位突出区域151617然后利用所选区域的判别信息进行目标分类。

我们知道,从每个输入图像中提取(局部结构信息)LSI是FGVC的基本步骤。目前,大量的大规模集成电路提取技术如一阶导数和二阶导数1819已经被求婚了。此外,图像数据增强技术被广泛用于提高LSI提取的效率,以更好地找到鉴别区域,提高FGVC的性能,包括20.,图像旋转21,图像翻转5722,图像仿射变换23.然而,在我们的研究范围内,在FGVC领域,还没有人系统地研究如何正确地描绘每个输入图像中的不同局部结构特征(例如,边缘,角和斑点)进行对象分类。原因是他们没有考虑如何从每个输入图像中正确提取LSI,也没有考虑不同类型图像局部结构特征的性质及其之间的差异。例如,Feng等人。21打算使用原始图像和旋转图像(例如,逆时针旋转原始图像\π(\ \)/ 2,\π(\ \),和3\π(\ \)/2)增强特征学习能力。然而,这是最近发生的事2425演示了LSI之间的图像和图像旋转\π(\ \)都是一样的。

本文研究了一阶和二阶方向导数252627282930.3132333435利用图像局部结构特征的特征特性,研究现有的大规模集成电路提取、图像数据增强和局部结构特征描述技术。我们的研究表明,现有的图像数据增强技术(例如,光照变化36,图像着色20.,图像仿射变换23)对FGVC的性能有很大影响。现有的图像数据增强技术如果没有仔细考虑从每个输入图像中提取LSI和描述局部结构特征,就不能有效地增强网络从每个输入图像中提取LSI的能力,从而导致FGVC的稳定性问题,甚至削弱FGVC的性能。上述现象在无监督的情况下更容易发生。同时,边、角和斑点的一阶和二阶方向导数表明,有必要沿多个滤波方向提取局部结构特征的LSI。只有这样,我们才能正确地获得具有不同局部结构特征的LSI。

在这项工作中,我们提出了一种新的用于FGVC的LSI学习方法。沿多个滤波方向提取图像LSI的思想和注意增强机制(AEM)的思想37相结合,有效地从每个输入图像中提取LSI,并自动对FGVC的显著区域进行定位。为了防止过拟合和噪声的影响,本文提出的方法除了从每个输入图像中充分提取LSI外,不需要额外的辅助条件。此外,该方法还考虑了目标的整体结构信息。

我们提出的方法的主要贡献包括三个方面。首先,以基于一阶和二阶方向导数的局部结构特征LSI提取为例,说明了我们从输入图像中提取LSI的独特方法。此外,所提取的LSI具有正确描述图像中完整的局部结构特征的能力。其次,针对FGVC提出了一种新的不需要额外对象标记的LSI学习方法。第三,该方法在5个标准图像数据集(即UFG和UFG)中优于8种最先进的FGVC方法12、花38,鸟类种类9、汽车10,以及飞机11).

本文组织结构如下。在分段中"相关工作,简要介绍了FGVC存在的问题及现有的FGVC方法。在分段中"该方法,在演示了如何从输入图像中提取LSI之后,我们提出了一种新的LSI学习方法。在分段中"实验,我们通过与现有的八种基准方法进行比较,证明了我们提出的方法在六个标准数据集上的性能。

相关工作

FGVC问题有两个方面,首先是如何使给定的网络识别判别区域,其次是如何学习对象的结构。现有的FGVC方法大致可分为两类。在第一类方法中151617,首先对显著性区域进行定位,然后根据所选区域的目标结构信息进行FGVC。值得注意的是,这些方法151617通常会根据边界框或部分注释机制花费大量时间来收集注释。

在第二类方法中3.456782239,通过优化神经网络结构确定显著区域。Fu等。39提出了一种注意机制来定位突出区域,然后利用多尺度技术在选定区域学习特征。Yang等。4提出了一种多智能体学习机制来识别信息区域,然后仔细检查所选区域是否存在FGVC。Chen等。5提出了一种破坏与构建学习(DCL)机制,该机制对识别区域和特征有较好的学习能力。Zhou等。7结果表明,识别每个输入图像中不同物体的整体结构有利于定位显著区域。Min等。8放大双线性池化技术40多对象矩阵归一化(MOMN)方法,该方法具有同时正则化基于平方根、低秩和稀疏性的二阶表示的能力。

另外,图像数据增强技术被认为是FGVC的好助手。图像数据增强具有增加训练数据的多样性和数量的功能,有助于降低网络过拟合的几率,提高分类性能。图像数据增强技术可以分为两类。第一组是手动图像数据增强技术,包括图像几何变换、翻转、图像着色、裁剪、旋转、噪声注入和混合图像。第二种是自动增强41,包括自动增强学习42以及随机擦除数据增强43

该方法

在本节中,我们首先介绍了从输入图像中正确提取LSI的方法,然后提出了一种新的用于FGVC的LSI学习方法。数字1显示了我们所提出的LSI学习框架的总体流程,包括LSI预处理、骨干分类网络、分类网络和局部结构特征相似性度量(LSFSM)四个模块。

图1
图1

我们提出的LSI学习框架的整体管道。(1)信息预处理:对输入的图像进行旋转和洗牌。(2)骨干分类网络:提取基本特征图。(3)分类网络:对图像进行细粒度分类。(4) LSFSM:测量不同图像的局部结构特征相似度。

大规模集成电路提取

众所周知,在计算机视觉和图像处理中,LSI的精度对输入图像的后续任务有很大的影响。图像的角和边缘作为图像的基本结构特征,一般采用一阶导数来检测252744,和blob一般用二阶导数来检测45.接下来,以这三种基本结构特征检测为例,说明我们如何从输入图像中提取LSI,其中比例因子和各向异性因子都设置为\ \√{1.5}\)

数字2a为测试图像“Building”,其中一个角表示为“\三角洲(\ \)时,一个边点被表示为\盒子(\ \)',而blob则表示为'\ \ bigcirc \ ()”。数字2b-d分别为t型角的FOAGDD、阶跃边的FOAGDD和blob沿不同滤波方向的SOAGDD。从Fig可以看出。2B和c表示方向导数沿滤波方向从0到2的变化\π(\ \)t型角和台阶边不同。即t型角的方向导数有3个局部极大值和3个局部极小值,阶梯边的方向导数只有1个局部极大值和1个局部极小值。数字2b和c也表明水平和垂直滤波方向上的FOAGDD不能区分角和台阶边,这可以用角和边的FOAGDD表示来解释2528.这种现象提醒我们,输入图像的LSI应该从多个滤波器方向中提取。数字2e是灯光变化后的测试图像“Building”。数字2f-h分别是角的FOAGDD,阶跃边的FOAGDD, blob的SOAGDD。数字2f-h可以清楚地看出,角的FOAGDD在许多滤波方向上都较大,而边缘的FOAGDD和斑点的SOAGDD在许多滤波方向上都较小。因此,雷电条件对LSI的提取以及后续的不同局部结构特征的描述和分类等任务都有很大的影响。

同时,图像旋转21或者图像水平翻转57是一种广泛应用于FGVC图像数据增强的操作。将原图像逆时针旋转后\π(\ \)如图所示。2i,从Fig中可以看出。2j-l,即角和边的绝对一阶方向导数和斑点的二阶方向导数等于原始图像上相应位置的值,如图所示。2罪犯。在水平翻转原始图像后,如图所示。2m,由图可见。2N-p,即角和边的绝对一阶方向导数和斑点的二阶方向导数等于原图像上相应位置的值。

图2
图2

在角落的foagdd的例子(标记为'\三角洲(\ \)')和一个边缘点(用'标记\盒子(\ \)')和soagdd在一个blob(标记为'\ \ bigcirc \ ()’)在不同成像条件下的相同位置。

通过以上例子,我们可以发现,一些图像数据增强操作可以使局部结构特征的LSI突出,便于分类,而一些图像数据增强操作会使局部结构特征的LSI不突出,便于分类,一些图像数据操作对LSI提取没有影响。此外,多尺度技术1639也被广泛用于增强LSI提取和执行FGVC。张和孙2532揭示了现有的多尺度技术只能沿既定的骨干网滤波方向有效地增强LSI提取。从输入图像中提取LSI的关键是沿多个滤波方向提取LSI。这是因为只有沿着多个方向提取每个输入图像的LSI,才能正确描述不同局部结构特征的性质。这意味着在进行FGVC时,我们需要同时对提取的输入图像的不同滤波方向的局部结构信息进行处理。只有这样,我们才能准确地从每张输入图像中提取足够的LSI,用于分析不同显著区域的性质,进行更有效的FGVC。

信息预处理

AEM37是使网络集中学习局部突出内容的有效途径。我们将FGVC的AEM从一维信号扩展到二维信号。对于输入图像时,我们首先根据图像的中心像素建立其对应的笛卡尔坐标。输入图像被分割成\ (N \ N \)子图像块Bj在哪里\(-\lfloor \frac{N}{2} \rfloor \le i \le \lfloor \frac{N}{2} \rfloor \)),j\(-\lfloor \frac{N}{2} \rfloor \le j \le \lfloor \frac{N}{2} \rfloor \))分别表示水平指数和垂直指数。然后每个子图像块Bj)均匀分布放置在图像中。洗牌后的图像表示为年代.值得注意的是,AEM中经过洗牌后的图像会使网络集中在局部显著区域。但是,AEM会使网络忽略对象的整体结构信息。

我们旋转原始图像和洗牌图像年代在时间间隔\ \(压裂{\π}{K} \)在…范围内\([0, \压裂{(K - 1) \π}{K}] \),增强了网络学习对象显著局部区域和对象整体结构的能力。然后是一系列旋转的原始图像\ (I_k \)\(k= 1,2,\dots \)\ (k - 1 \))和旋转洗牌图像\ (S_k \)\ \ (k = 1 2 \点)\ (k - 1 \))输入骨干网络进行训练。数字3.是一个骨干网的例子,用于提取每个输入图像的一阶强度变化信息。从Fig可以看出。3.a,利用现有的图像数据增强技术,只从每个纪元的每个输入图像中提取沿一对正交方向的LSI。相比之下,随着我们的操作,LSI沿4\ ((k - 1) \)从每个epoch的每个输入图像中提取方位,如图所示。3.b.这样网络就有很大的几率从每张输入图像中获取足够的LSI进行特征学习。这对于现有最先进的FGVC方法来说是不可能的123.4578,因为他们没有考虑如何使用LSI准确地描述局部结构特征并进行FGVC。实验比较表明,当数据集中的训练图像数量有限时,我们的方法表现得更好。

图3
图3

LSI抽取示例。(一个)现有的LSI提取图像数据增强技术。(b)我们提出的LSI提取信息预处理。

分类网络

同一类别的不同图像中的物体之间总是存在共性。根据信息预处理模块,对原始图像进行旋转处理\ (I_k \)\ (k = 1 2 \ ldots \)\ (K_1 \))和旋转后的洗牌图像\ (S_d \)\ (d = 1 2 \ ldots \)\ (K_2 \))由输入图像转换而成对于我们的方法。之后是集合\ \ {I_1 \ ()\ \ ldots \ ()\ (I_ {K_1} \)\ (S_1 \)\ \ ldots \ ()\ (S_ {K_2} \ varvec {l} \} \)是培训,在哪里l表示细粒度类别的对应的基本真理单一对所有标签。图像组\ \ {I_1 \ ()\ \ ldots \ ()\ (I_ {K_1} \)\ (S_1 \)\ \ ldots \ ()\ (S_ {K_2} \} \)发送到骨干网以获取相应的特征映射。然后,利用分类网络中的自适应平均池化层和全连通层对特征图进行处理,得到分类分布\ \ {\ varphi (I_1) \)\ \ ldots \ ()\ \ varphi (I_ {K_1}) \)\ (\ varphi (S_1) \)\ \ ldots \ ()\ \ varphi (S_ {K_2}) \} \).这样,分类损失了\ (L_ c {} \)定义为

$ ${对齐}\ \开始开始{对齐}{L_ {c}} = - \ \和限制_{我\ \ mathrm {c}} \境({\ \和限制_ {k = 1} ^ {{K_1}} {{{\ varvec {l}}} \ cdot \ log (\ varphi ({I_k }))} } + {\ 总和\限制_ {d = 1} ^ {{K_2}} {{{\ varvec {l}}} \ cdot \ log (\ varphi ({S_d}))}} \境),结束\{对齐}\{对齐}$ $
(1)

在哪里C表示用于训练的图像集。

局部结构特征相似性度量

值得注意的是,上述分类网络是通过学习对象的整体和局部信息来进行FGVC。灵感来自于46,引入了不同图像间局部区域的相似性度量,使网络学习到更多物体的LSI,从而获得更好的FGVC。

值得注意的是,在原始图像旋转或打乱后,子图像的位置发生了变化。在信息预处理模块中,有必要对旋转或洗牌后的图像给出一个新的索引。对于每一个旋转的原始图像\ (I_k \)\ (k = 1, 2 \)\ \ ldots \ ()\ (K_1 \)),其对应的索引(uv)的子图像块\ (B_k (u, v) \)可由指数(j)的原始图像块Bj)和旋转矩阵R \ ({\ mathbf {}} _ {k} \)

$ ${对齐}\ \开始开始{对齐}{[u, v]} = & {(i, j)} {\ mathbf {R}} _ {k}, \ \ {\ mathbf {R}} _ {k} = &左\[开始\{数组}{cc} \ cos(\压裂{(k - 1) \π}{K_1})和{}- \罪(\压裂{(k - 1) \π}{K_1}) \ \ \罪(\压裂{(k - 1) \π}{K_1}) & {} \ cos(\压裂{(k - 1) \π}{K_1})数组{}\ \端)。结束\{对齐}\{对齐}$ $
(2)

给定一个子图像块Bj)的原始图像,子图像块的平均灰度值Bj)与各子图像块的平均灰度值进行比较\ (S_1 (m, n) \)被打乱的图像\ (S_1 \).索引(j)的子图像块Bj)被赋给索引(n)的子图像块\ (S_1 (m, n) \)当两个子图像的平均灰度值最接近时。这样,索引(n)的每个子图像块\ (S_1 (m, n) \)是获得。同时,指数(p)的子图像块\ \ (S_d (p, q))旋转后的洗牌图像\ (S_d \)\ (d = 1, 2 \)\ \ ldots \ ()\ (K_2 \))可由指数(n)的图像块\ (S_1 (m, n) \)旋转矩阵R \ ({\ mathbf {}} _ {k} \)用Eq. (2).

在本模块中,的索引\ \ {I_1 \ ()\ \ ldots \ ()\ (I_ {K_1} \)\ (S_1 \)\ \ ldots \ ()\ (S_ {K_2} \} \)用作标签。这组图片\ \ {I_1 \ ()\ \ ldots \ ()\ (I_ {K_1} \)\ (S_1 \)\ \ ldots \ ()\ (S_ {K_2} \} \)发送到骨干网,得到它们对应的特征图。对于每个特征映射,都由1 \ \(1 \倍)卷积层,激活函数Tanh,平均池化层,重塑,排列数组维数,得到每个图像块索引的预测结果。将旋转后的原始图像和旋转后的洗牌图像的指标预测结果记为\((\tau _{k}(u),\tau _{k}(v))\)\ (k = 1 2 \ ldots \)\ (K_1 \)),\((\varepsilon _{d}(p),\varepsilon _{d}(q))\)\ (d = 1 2 \ ldots \)\ (K_2 \)分别)。然后利用欧几里得距离,通过计算输入图像的索引标签与其对应的索引预测结果之间的差值来度量局部特征的相似度。

$ ${对齐}\ \开始开始{对齐}{}和{L_ {sm}} = & \ \和限制_ {k = 1} ^ {{K_1}}{\ \和限制_ {u = - \ lfloor \压裂{N} {2} \ rfloor} ^ {\ lfloor \压裂{N} {2} \ rfloor}{\ \和限制_ {v = - \ lfloor \压裂{N} {2} \ rfloor} ^ {\ lfloor \压裂{N} {2} \ rfloor}{\√6{{{(\τ_ {k} (u) - u) ^ 2 +(\τ_ {k} (v) - v) ^ 2 }}} } } } +&\ 总和\限制_ {d = 1} ^ {{K_2}}{\ \和限制_ {p = - \ lfloor \压裂{N} {2} \ rfloor} ^ {\ lfloor \压裂{N} {2} \ rfloor}{\ \和限制_ {q = - \ lfloor \压裂{N} {2} \ rfloor} ^ {\ lfloor \压裂{N} {2} \ rfloor}{\√6 {{{(\ varepsilon _ {d} (p) - p) ^ 2 + (\ varepsilon _ {d} (q - q) ^ 2 }}} } } }.结束\{对齐}\{对齐}$ $
(3)

最后,给出了本文提出的基于LSI学习的FGVC算法的伪代码。

图一个

实验

在本节中,首先是标准数据集,包括UFG图像数据集12幼崽- 200 - 2011(宝宝)9,斯坦福汽车(CAR)10, FGVC-Aircraft (AIR)11,牛津花(FLO)38,以及植物病害(PD)47,介绍了实验中使用的实验设置。其次,阐述了信息预处理与该方法之间的关系。第三,本文提出的LSI学习方法和ResNet-50等8种最先进的学习方法的性能2, VGG-161, NTS-Net4, fast-MPN-Cov3., DCL5, Cross-X6, MOMN8,及ACNet22,是根据几个实验进行比较的。这些基准测试方法的代码来自于它们的作者。

实验设置

将该方法与上述最先进的基准方法应用于六个图像数据集,并对其分类性能进行比较。此外,我们强调,在我们的实验中,用于训练的唯一注释是图像数据集的分类标签。所提出的方法在Pytorch中实现,使用3.50 GHz CPU和64 GB内存和4个NVIDIA Geforce GTX TITAN X和12 GB内存。

UFG数据集12包括大豆数据集和棉花数据集。棉花数据集包含80个棉花叶片类别,每个类别3个训练图像。它还包括240张图像作为测试数据。大豆数据集包含200个大豆品种的1200张图像。它们分为两部分:600张用于训练的图像和600张用于测试的图像。FLO数据集38包含102类花的8189张图片。这些图像被分为来自102个类的2040个训练图像和6149个测试图像。熊猫幼崽9包含5994个训练图像和5794个测试图像,来自200类鸟类。那辆车10包含8144张用于训练的图像和8041张用于测试196个课程的图像。空气11包含100个类的6667张训练图像和3333张测试图像。对于警局来说47本实验选取38个植物病害类别,5700张训练图像和5700张测试图像。

我们使用vg -161和ResNet-502在我们的方法中作为骨干网。UFG操作12以保持原始物体形状的纵横比。在此操作中,在将输入图像调整为的大小之前,将其填充为正方形440 \ \ 440 \倍)像素,然后随机旋转和裁剪到384 \ \ 384 \倍)像素。所有方法训练160个epoch,使用随机梯度下降,批大小为16。首先,学习率设置为0.001,然后每60个epoch降低10倍。此外,在实验过程中,还根据相应的论文精心细化了基准方法。

参数设置

在我们的调查范围内,UFG数据集12是FGVC中最具挑战性的数据集之一。原因如下。棉花和大豆图像数据集分别包含80个和200个极细粒品种,而每个类别只有3个训练图像。另一方面,它们的类别归属主要由基因决定,人类很难对它们进行准确的分类。以三幅棉花图像为例,如图所示。4,人们很容易对图进行分类。4a和b归为一类,图。4C在另一个类别。事实上,无花果。4b和c属于同一类别,图。4A来自另一个类别。

图4
图4

不同类型的棉花叶子图像的例子。

在本小节中,我们将讨论子图像块数量的选择N以及图像的旋转方向。我们首先将输入图像集固定为\(\{I,I_{\frac{\pi}{4}},S,S_{\frac{\pi}{4}}\}\}\)在不同子图像块数的情况下,检验所提方法的FGVC精度。表示原始图像,\ (I_{\压裂{\π}{4}}\)表示逆时针旋转的原始图像\ \(压裂{\π}{4}\)年代表示洗牌后的图像,和\ (S_{\压裂{\π}{4}}\)通过旋转表示旋转后的洗牌图像\ \(压裂{\π}{4}\)逆时针方向。从表中可以看出1当时,所提方法性能最佳N是6。

表1所提方法的精度。
表2六种不同标准数据集上最先进方法的比较。

其次,固定子图像块的数量N到6对不同的输入图像集检验所提方法的准确性。数字5表明不同方向的图像旋转次数对FGVC性能影响很大。从图中可以看出。5也就是说,包含4张图像的图像集的性能要优于包含2张图像的图像集。此外,该方法在图像集上的性能最好\(\{I,I_{\frac{\pi}{6}},I_{\frac{\pi}{4}},S\}\)图像设置的最差表现\(\{我I_{\π}\}\),如图所示。5.一方面,有2张图像的图像集的输入图像为而且\ (I_{\π}\),它们没有提供任何创新,只是为网络提供了相同的LSI(见图。2).另一方面,含有4张图像的图像集的输入图像具有不同的lsi,从而向网络提供更多的信息。这就是图中结果的原因。5

图5
图5

不同输入图像集对FGVC性能的影响。

考虑表中的结果1和无花果。5,我们将子图像块数设置为\ (N = 6 \)而输入图像设为\(\{I,I_{\frac{\pi}{6}},I_{\frac{\pi}{4}},S\}\)在所提出的方法中进行后续实验。

实验结果

表格2展示了我们提出的方法和八个最先进的方法在六个标准数据集上的直接结果。然而,表中有7个数据集2,因为UFG数据集包括大豆数据集和棉花数据集。此外,我们将所提出的方法与ResNet-50的主干进行静态测试,对所测试的方法进行比较。对于CUB数据集,我们提出的方法比ResNet-50提高了1.58%、3.6%、1.55%、0.66%、0.31%、0.56%、3.99%和0.47%2, VGG-161, NTS-Net4, fast-MPN-Cov3., DCL5, Cross-X6, MOMN8,及ACNet22;对于CAR数据集,我们提出的方法比ResNet-50分别提高了1.37%、4.74%、1.97%、3.68%、0.11%、0.11%和6.04%2, VGG-161, NTS-Net4, fast-MPN-Cov3., DCL5, Cross-X6,和MOMN8,准确度与ACNet相当22;对于AIR数据集,本文方法较ResNet-50分别提高1.14%、0.56%、2.73%、0.62%、0.30%、1.04%、5.55%和2.23%2, VGG-161, NTS-Net4, fast-MPN-Cov3., DCL5, Cross-X6, MOMN8,及ACNet22;对于FLO数据集,我们提出的方法比ResNet-50提高了1.81%、2.79%、1.74%、0.83%、0.67%、1.04%、0.01%和0.28%2, VGG-161, NTS-Net4, fast-MPN-Cov3., DCL5, Cross-X6, MOMN8,及ACNet22.表格2表明本文方法的性能优于基准测试方法。这是因为该方法可以使网络从每个输入图像中学习到更多的LSI特征。换句话说,我们提出的方法可以更好地描述图像中不同特征的性质。从表中可以看出2我们提出的方法在棉花和大豆数据集等图像数量有限的数据集上获得了更好的性能。因为在图像数量有限的数据集中,准确提取图像中不同特征的LSI对FGVC的性能影响更为显著。

对于UGG、CUB、CAR、AIR和FLO图像,分别为我们方法的最后一层卷积层和两种基准方法(ResNet-50)对应的特征图2和DCL5)如图所示。6.对于PD图像,我们方法的最后一个卷积层和两种基准方法(ResNet-502和MOMN8)如图所示。6.从无花果可以看出。6而且7说明每种方法的特征图有显著差异。与其他三种基准测试方法相比,我们的方法更专注于学习对象的整体结构信息。因此,周围环境对FGVC的干扰可以被有效抑制。

表中的结果2,无花果。6而且7结果表明,本文方法比现有方法具有更好的性能。主要原因是该方法通过沿多个滤波方向提取LSI,可以从输入图像中获得完整的局部结构特征。这样,每个输入图像都有足够的LSI,可以分析不同显著区域的性质,进行更有效的FGVC。也就是说,在给定的骨干网中加入所提出的LSI学习模块,可以增强网络发现显著区域的能力。

此外,我们用PyTorch实现了NVIDIA Geforce GTX TITAN,并报告了我们的推断时间。大小图像上的运行时间\(384 \乘384\)约为31 ms,这意味着我们提出的方法在实际应用中是有效的。

结论

本文针对FGVC提出了一种新的LSI学习框架。首先,阐述了从每个输入图像中准确提取LSI的方法,使网络能够正确描述图像中不同特征的性质。其次,提出了我们的LSI学习框架。第三,将本文方法的性能与八种基准方法进行了比较。仿真结果表明,该方法具有较好的FGVC处理能力。特别是在处理图像数量有限的数据集时,我们提出的方法具有更好的性能。值得注意的是,我们提出的LSI学习机制在用于图像对象检测时并没有明显的性能优势。下面,我们将把所提出的机制扩展到变压器48并将其应用于其他图像处理任务,如物体检测、图像分割和物体跟踪。

图6
图6

本文方法和另外两种方法基于ResNet-50骨干网的最后一层卷积来实现特征图可视化。

图7
图7

本文方法和另外两种方法基于ResNet-50骨干网的最后一层卷积来实现特征图可视化。