
目标检测(Object Dectection)的任务是图像中所有感兴趣的目标(物体),确定他们的类别和位置。
1.2 目标检测要解决的核心问题除图像分类外,目标检测要解决的核心问题是:
1.目标可能出现在图像的任何位置。
2.目标右各种不同的大小。
3.目标可能有各种不同的形状。
注:ILSVRC其实就是众所周知的ImageNet的挑战赛,数据量极⼤;PASCAL数据集(包含⽬标检测和图像分割等),相对较⼩。
2.1.2 R-CNN 介绍R-CNN作为R-CNN系列的第⼀代算法,其实没有过多的使⽤“深度学习”思想,⽽是将“深度学习”和传统的“计算机视觉”的知识相结合。⽐如R-CNN pipeline中的第⼆步和第四步其实就属于传统的“计算机视觉”技术。使⽤selective search提取region proposals,使⽤SVM实现分类。
预训练模型。选择一个预训练模型(pre-trained)神经网络(如AlexNet、VGG)。
重新训练全连接层使用需要检测的目标重新训练(re-train)最后全连接层(connected layer)。
提取prosals并计算CNN特征。利用选择性搜索(Slective Search)算法提取所有prosals(大约2000幅images),调整(resize/warp)它们固定大小,以满足CNN输入,然后将feature map保存到本地磁盘。
训练SVM。利用feature map训练SVM来对目标和背景进行分类(每个类一个二进制SVM)。
边界框回归(Bounding boxes Regression)。训练将输出一些校正因子的线性回归分类器。
R-CNN在VOC 2007测试集上mAP达到58.5%,打败当时所有的⽬标检测算法。
Fast R-CNN是基于R-CNN和SPPnets进⾏的改进。SPPnets,其创新点在于计算整幅图像的the shared feature map,然后根据object proposal在shared feature map上映射到对应的feature vector(就是不⽤重复计算feature map了)。当然,SPPnets也有缺点:和R-CNN⼀样,训练是多阶段(multiple-stage pipeline)的,速度还是不够"快",特征还要保存到本地磁盘中。
将候选区域直接应⽤于特征图,并使⽤RoI池化将其转化为固定⼤⼩的特征图块。以下是Fast R-CNN的流程图
因为Fast R-CNN使⽤全连接层,所以应⽤RoI Pooling将不同⼤⼩的ROI转换为固定⼤⼩。
RoI Pooling 是Pooling层的⼀种,⽽且是针对RoI的Pooling,其特点是输⼊特征图尺⼨不固定,但是输出特征图尺⼨固定(如7x7)
在Fast RCNN中,指的是Selective Search的输出;在Faster RCNN中指的是RPN的输出,⼀堆矩形候选框,形状为1x5x1x1(4个坐标+索引index),其中值得注意的是:坐标的参考系不是针对feature map这张图的,⽽是针对原图的(神经⽹络最开始的输⼊)。其实关于ROI的坐标理解⼀直很混乱,到底是根据谁的坐标来。其实很好理解,我们已知原图的⼤⼩和由Selective Search算法提取的候选框坐标,那么根据"映射关系"可以得出特征图(featurwe map)的⼤⼩和候选框在feature map上的映射坐标。⾄于如何计算,其实就是⽐值问题,下⾯会介绍。所以这⾥把ROI理解为原图上各个候选框(region proposals),也是可以的。
2.2.4 RoI 的具体操作这样我们就可以从不同⼤⼩的⽅框得到固定⼤⼩的相应的feature maps。值得⼀提的是,输出的feature maps的⼤⼩不取决于ROI和卷积feature maps⼤⼩。RoI Pooling 最⼤的好处就在于极⼤地提⾼了处理速度。