《动手学深度学习》笔记——计算机视觉基础(目标检测、语义分割、样式迁移)
1 改进模型泛化的方法
1.1 图像增强
图像增强对训练图像进行一系列的随机变化,生成相似但不同的训练样本,增强训练集的多样性,从而提高模型的泛化能力。
常用的图像增强方法
详见torchvision.transforms教程
- 翻转:翻转图像。不总是可行。
# 左右翻转 torchvision.transforms.RandomHorizontalFlip() # 上下翻转 torchvision.transforms.RandomVerticalFlip()
- 切割:从图片中切割一块,然后变形到固定形状
# 随机高宽比、大小、位置 torchvision.transforms.RandomResizedCrop((200, 200), scale=(0.1, 1), ratio=(0.5, 2))
- 变色:改变亮度、对比度、饱和度和色调
# 随机亮度、对比度、饱和度和色调 torchvision.transforms.ColorJitter(brightness=0.5, contrast=0, saturation=0, hue=0)
- ……
1.2 微调
一个神经网络一般可以分成两块:特征抽取(将原始像素变成容易线性分割的特征)、线性分类器(用来做分类)。
微调(Fine-tuning)通过使用在大数据上得到的预训练好的模型来初始化模型权重来完成提升精度。步骤如下:
- 在源数据集(例如ImageNet数据集)上预训练神经网络模型,即源模型。
- 创建一个新的神经网络模型,即目标模型,将源模型上的所有模型设计及其参数(输出层除外)复制至其中。
- 向目标模型添加输出层,其输出数是目标数据集中的类别数。然后随机初始化该层的模型参数。
- 在目标数据集(如椅子数据集)上训练目标模型。输出层将从头开始进行训练,而所有其他层的参数将根据源模型的参数进行微调。
预训练模型质量很重要。微调通常速度更快、精度更高。
2 目标检测基本策略
目标检测(Object Detection)或目标识别(Object Recognition)比图像分类更加复杂,需要进行多个物体的识别,还要找出每个物体的位置。目标检测的应用场景也更多。
2.1 边界框
边界框(Bounding Box)用来描述对象的空间位置
(1)通过矩形左上角的以及右下角的坐标决定:(x_\text{左上},y_\text{左上},x_\text{左下},y_\text{左下})
(2)通过边界框中心的坐标以及框的宽度和高度决定:(x_\text{中心},y_\text{中心},w,h)
目标检测算法通常会在输入图像中采样大量的区域,然后判断这些区域中是否包含我们感兴趣的目标,并调整区域边界从而更准确地预测目标的真实边界框(Ground-truth Bounding Box)。
2.2 锚框
预测真实边界框其中一种方法为:以每个像素为中心,生成多个缩放比(Scale)s
和宽高比(Aspect Ratio)r
不同的边界框, 这些边界框称为锚框(Anchor Box)。
生成锚框的方法:
(1)以图像的每个像素为中心生成不同形状的锚框:设输入图像的高度为h
、宽度为w
,缩放比s\in (0,1]
,宽高比r>0
,则锚框的宽度和高度分别为hs\sqrt{r}
和\frac{hs}r
。 注意当中心位置给定时,已知宽和高的锚框是确定的。
(2)要生成多个不同形状的锚框,需设置许多缩放比s_1,\cdots,s_n
和许多宽高比r_1,\cdots,r_m
。 当使用这些比例和长宽比的所有组合以每个像素为中心时,输入图像将共有whnm
个锚框。 在实践中常只考虑包含s_1
或r_1
的组合,即
(s_1,r_1),(s_1,r_2),\cdots,(s_1,r_m),(s_2,r_1),(s_3,r_1),\cdots,(s_n,r_1)
此时以同一像素为中心的锚框的数量为n+m-1
,整个输入图像将共生成wh(n+m-1)
个锚框。
2.3 交并比(IoU)
杰卡德系数(Jaccard)可以衡量两组之间的相似性。 给定集合\mathcal{A}
和\mathcal{B}
,其杰卡德系数为他们交集的大小除以他们并集的大小,即
J(\mathcal{A},\mathcal{B})=\frac{|\mathcal{A} \cap \mathcal{B}|}{|\mathcal{A} \cup \mathcal{B}|}
可以将任何边界框的像素区域视为一组像素,两个像素区域集合的杰卡德系数称之为交并比(Intersection over Union,IoU)。易知交并比的取值范围为[0,1]
,其中0表示无重叠,1表示重合。
2.4 赋予锚框标号
在训练集中将每个锚框视为一个训练样本,为了训练目标检测模型,需要每个锚框的类别(Class)和偏移量(Offset)标签,其中前者是与锚框相关的对象的类别,后者是真实边界框相对于锚框的偏移量。
2.4.1 将真实边界框分配给锚框
给定图像,设锚框A_1,A_2,\cdots,A_{n_a}
,真实边界B_1,B_2,\cdots,B_{n_b}
,其中n_a≥n_b
。定义矩阵\mathbf{X}\in \mathbb{R}^{n_a\times n_b}
,其第i
行第j
列的元素x_{ij}
是锚框A_I
和真实边界框B_j
的IoU。将真实边界框分配给锚框的算法步骤如下
(1)在矩阵\mathbf{X}
中找最大的元素,其行、列索引分别为i
和j
。将真实边界框B_{j}
分配给锚框A_{i}
,然后丢弃第i
行和第j
列中所有元素。
因为这对是所有锚框和真实边界框配对中最相近的
(2)重复上一步操作,直至丢光n_b
列中的所有元素,此时已经为n_b
个锚框各分配了一个真实边界框。
(3)遍历剩下的n_a-n_b
个锚框:对于锚框A_i
,在矩阵\mathbf{X}
第i
行中找到与A_i
的IoU最大的真实边界框B_j
,只有当此IoU大于预定义的阈值时才将B_j
分配给A_i
。
2.4.2标记类别和偏移量
设锚框A
被分配了真实边界框B
。A
的类别应与B
相同;A
的偏移量将根据A
和B
中心坐标的相对位置以及这两个框的相对大小进行标记,设A
和B
的中心坐标分别为(x_a,y_a),(x_b,y_b)
,宽度分别为w_a,w_b
,高度分别为h_a,h_b
,则A
的偏移量标记为
(\frac{\frac{x_b-x_a}{w_a}-\mu_x}{\sigma_x},\frac{\frac{y_b-y_a}{h_a}-\mu_y}{\sigma_y},\frac{\log\frac{w_b}{w_a}-\mu_w}{\sigma_w},\frac{\log\frac{h_b}{h_a}-\mu_h}{\sigma_h})
其中常量的默认值为\mu_x=\mu_y=\mu_w=\mu_h=0,\sigma_x=\sigma_y=0.1,\sigma_w=\sigma_h=0.2
2.5 使用非极大值抑制(NMS)预测边界框
当有许多锚框时,可能会输出许多相似的具有明显重叠的预测边界框,都围绕着同一目标。
非极大值抑制(Non-maximum Suppression,NMS):合并属于同一目标的类似的预测边界框,从而简化输出。
对于一个预测边界框B
,目标检测模型会计算每个类别的预测概率,则最大预测概率p
所指的类别即为B
的类别,称p
为预测边界框B
的置信度(Confidence)。在同一张图像中,所有预测的非背景边界框都按置信度降序排序生成列表L
。通过以下步骤操作对列表L
进行排序:
(1)从L
中选取置信度最高的预测边界框 $B$ 作为基准,将所有与B
的IoU(注意是J(X, B)
)超过预定阈值\epsilon
的非基准预测边界框从L
中移除。
此时
L
保留了置信度最高的预测边界框,去除了与其太过相似的其他预测边界框,即那些具有非极大值置信度的边界框被抑制了。
(2)重复上一步操作,直到L
中的所有预测边界框都曾被用作基准。
此时
L
中任意一对预测边界框的IoU都小于预定阈值\epsilon
,因此没有一对边界框过于相似。
(3)输出列表L
中的所有预测边界框。
过程变化如下图所示
对于多尺度目标检测,可以利用深层神经网络在多个层次上对图像进行分层表示来实现,参见SSD。
3 常见的目标检测算法
3.1 区域卷积神经网络(R-CNN)系列
区域卷积神经网络(Region-based CNN 或 Regions with CNN features,R-CNN) 是将深度模型应用于目标检测的开创性工作之一。
3.1.1 R-CNN
原始的R-CNN首先从输入图像中选取若干锚框,并标注它们的类别和边界框(如偏移量),然后用卷积神经网络对每个提议区域进行前向传播以抽取其特征。之后用每个提议区域的特征来预测类别和边界框。具体包含以下4步骤:
- 使用选择性搜索(启发式搜索)算法来选择锚框。
- 使用预训练CNN模型来对每个锚框抽取特征。
- 将每个提议区域的特征连同其标注的类别作为一个样本,训练一个SVM(支持向量机)来对类别分类。
- 将每个提议区域的特征连同其标注的边界框作为一个样本,训练一个线性回归模型来预测边界框偏移。
尽管R-CNN模型通过预训练的卷积神经网络有效地抽取了图像特征,但它的速度很慢。庞大的计算量使得R-CNN在现实世界中难以被广泛应用。
3.1.2 Fast R-CNN
R-CNN需要对每个锚框进行CNN运算,这些特征抽取计算有重复,并且锚框数量大,特征抽取的计算量也大。
快速的R-CNN(Fast R-CNN)对R-CNN的主要改进之一,是仅在整张图象上执行卷积神经网络的前向传播。
兴趣区域池化层(Rol Pooling):使每个锚框都可以变成想要的形状。给定一个锚框,均匀分割成n\times m
块,输出每块里的最大值。不管锚框多大,总是输出nm
个值。
Fast R-CNN使用CNN对整张图片抽取特征(快的关键),再对每个锚框使用Rol Pooling(将在原图片中搜索到的锚框,映射到CNN得到的结果上)生成固定长度的特征。
3.1.3 Faster R-CNN
为了较精确地检测目标结果,Fast R-CNN模型通常需要在选择性搜索中生成大量的提议区域。
更快的R-CNN(Faster R-CNN)提出将选择性搜索替换为区域提议网络(Region Proposal Network)来获得更好的锚框。
Faster R-CNN将CNN结果输入到卷积层,然后生成许多锚框,这些锚框有好有坏。随后进行预测:
- 二元类别预测:预测这个锚框的好坏,即有没有有效的圈住物体
- 边界框预测:对锚框进行一些改进,最后用NMS(非极大值抑制)对锚框进行合并。
如图,Faster RCNN精度高但是速度慢
2.3.4 Mask R-CNN
掩码R-CNN(Mask R-CNN)引入了一个全卷积网络(FCN,详见4.3),能够有效地利用在训练集中标注的每个目标在图像上的像素级位置进一步提升目标检测的精度。
Mask R-CNN将兴趣区域池化层替换为了兴趣区域对齐层,使用双线性插值(Bilinear Interpolation)来保留特征图上的空间信息,从而更适于像素级预测。
2.4 单发多框检测(SSD)
单发多框检测(SSD)是一种多尺度目标检测模型。基于基础网络块和各个多尺度特征块,SSD生成不同数量和不同大小的锚框,并通过预测这些锚框的类别和偏移量检测不同大小的目标。
- 通过单个基础网络从输入图像中提取特征,常用VGG、ResNet等卷积神经网络。
- 其后的几个多尺度特征块将上一层提供的特征图的高和宽缩小(如减半)。
- 底部段来拟合小物体,顶部段来拟合大物体。
- 以每个像素为中心产生多个锚框,对每个锚框预测类别和边缘框。
如图,与R-CNN系列相反,SSD模型速度快但精度不高
2.5 YOLO ⭐️
SSD中锚框大量重叠,因此浪费了很多计算。
YOLO(You Only Look Once)将图片均匀分成S\times S
个锚框,每个锚框预测B
个边缘框。后续版本(V2、V3、V4、……)有持续改进。
如图,相同精度下YOLO比SSD速度快
4 语义分割
4.1 基本概念
语义分割(Semantic Segmentation)将图像分割成属于不同语义类别的区域,其语义区域的标注和预测是像素级的。
计算机视觉领域中2个与语义分割相似的重要问题:
- 图像分割(Image Segmentation):将图像划分若干组成区域,这类问题的方法通常利用图像中像素之间的相关性。
- 实例分割/同时检测并分割(Simultaneous Detection and Segmentation)研究如何识别图像中各个目标实例的像素级区域。
语义分割的一个重要的数据集为Pascal VOC2012。
由于语义分割的输入图像和标签在像素上一一对应,输入图像会被随机裁剪为固定尺寸而不是缩放。
4.2 转置卷积
卷积不会增大输入的高宽,通常要么不变、要么减半。
转置卷积(Transposed Convolution)可以用来增大输入高宽。
4.2.1 基本操作
单通道的转置卷积基本操作可以表示为
Y[i:i+h,j:j+w] \xleftarrow{+} X[i,j]\cdot K
(1)为何称之为“转置”?
对于卷积Y=X*W
,可以对W
构造一个V
,使得卷积等价于矩阵乘法Y'=VX'
,其中Y',X'
是Y,X
对应的向量版本。
转置卷积则等价于Y'=V^\text{T}X'
。
(2)转置卷积不是反卷积!
数学上的反卷积(Deconvolution)是指卷积的逆运算:如果Y=\text{conv}(X,K)
,则X=\text{deconv}(Y,K)
反卷积很少用在深度学习中,所谓的反卷积神经网络通常指的是用了转置卷积的神经网络。
常规卷积将填充应用于输入,而转置卷积将填充应用于的输出。
4.2.2 重新排列输入和核
转置卷积是一种卷积,它将输入和核进行了重新排列。同卷积一般是做下采样不同,它通常用作上采样。若卷积将输入从(h,w)
变成了(h',w')
,则同样超参数的转置卷积为从(h',w')
变成(h,w)
。
(1)当填充为0、步幅为1时:
i. 将输入填充k-1
(k
为核窗口)
ii. 将核矩阵上下、左右翻转
iii. 然后做正常卷积(填充0、步幅1)
(2)当填充为p
、步幅为1时:
i 将输入填充k-p-1
(k
为核窗口)
ii. 将核矩阵上下、左右翻转
iii. 然后做正常卷积(填充0、步幅1)
(3)当填充为p
、步幅为s
时:
i. 在行和列之间插入s-1
行或列
ii. 将输入填充k-p-1
(k
为核窗口)
iii. 将核矩阵上下、左右翻转
iv. 然后做正常卷积(填充0、步幅1)
4.2.3 形状换算
设输入高、宽为n
,核窗口为k
,填充为p
,步幅为s
,则
转置卷积:
n'=sn+k-2p-s
卷积:
n'=\lfloor \frac{n-k-2p+s}{s} \rfloor \Rightarrow n ≥ sn'+k-2p-s
若让高宽成倍增加,则k=2p+s
4.3 全连接卷积神经网络(FCN)
全连接卷积神经网络(Fully Convolutional Network,FCN,全连接网络)是用深度神经网络来做语义分割的奠基性工作,它用转置卷积层来替换CNN最后的全连接层或全局池化层,从而可以实现每个像素的预测。
FCN先使用CNN抽取图像特征,然后通过1\times 1
卷积层将通道数变换为类别个数,最后通过转置卷积层将特征图的高和宽变换为输入图像的尺寸。模型如下图所示
在全卷积网络中,可以将转置卷积层初始化为双线性插值的上采样。
5 样式迁移
样式迁移(Style Transfer)使用卷积神经网络,自动将一个图像(样式图像)中的样式应用在另一图像(内容图像)之上。
基于卷积神经网络的样式迁移方法如下图所示
样式迁移常用的损失函数由3部分组成:
- 内容损失:使合成图像与内容图像在内容特征上接近。
- 样式损失:令合成图像与样式图像在样式特征上接近。
- 全变分损失:有助于减少合成图像中的噪点。
可以通过预训练的卷积神经网络来抽取图像的特征,并通过最小化损失函数来不断更新合成图像来作为模型参数。