2016_Faster R-CNN Towards Real-Time Object Detection with Region Proposal Networks(CVPR2016)shaoqing ren

一、背景及意义(动机)

fast R-CNN将R-CNN中影响速度的因素基本上都解决了,使得检出速度得到了很大提升。但是仍然存在一个步骤影响检出速度,那就是region proposal。为此在这篇论文中,作者提出了RPN网络来解决region proposal速度慢的问题,该网络可以与检测网络共享特征,使得region proposals基本不耗费时间,平均每张图片5ms。RPN网络是一个全卷积神经网络,它同时预测当前候选框是否为目标以及对预定义的候选框位置进行修正得到更加精准的候选框。RPN可以进行端到端的训练去生成高质量的候选框。作者使用交替训练的方式,让RPN和fast RCNN共享特征,得到faster rcnn模型。最后作者使用faster rcnn达到更好的性能,并且在速度上有了极大的提升。faster rcnn在PASCAL VOC2007上mAP达到73.2%,在PASCAL VOC2012上mAP达到70.4%并且在此基础上能在GPU上每秒跑5帧。
代码:https://github.com/ShaoqingRen/faster_rcnn

二、使用什么方法来解决问题(创新点)

  1. 提出了RPN网络用于region proposals,并与fast rcnn共享网络结构,得到faster rcnn网络模型,使得目标检测的性能及速度大大提高。

三、方法介绍

3.1 RPN网络

3.1.1 RPN网络结构

RPN网络的输入是任意尺度的图片,输出是一系列的候选目标,每个候选目标有对应的置信度。作者使用一个全卷积神经网络来建模这个过程。为了与Fast R-CNN共享特征,RPN的网络结构作者使用了与Fast R-CNN backbone网络相同的网络结构,并共享了底层的部分卷积层。ZF网络共享了前5层卷积层,VGG网络共享了前13层卷积层。
为了生成候选目标,作者在最后一层共享卷积层上,滑动一个小网络为每个位置生成候选目标。这个小网络全连接到nxn的滑动窗口,将每个滑动窗口映射到一个低维向量,ZF模型为256维,VGG模型为512维;然后再连接到两个全连接层,一个用于分类目标,一个用于定位目标。在论文中作者使用的滑动窗口大小为3。Figure1给出了RPN网络的示意图。这里全连接层在每个位置进行共享,可以很自然地通过使用一个nxn的卷积层然后再接入两个1x1的卷积层来实现,nxn的卷积层作者使用了ReLU激活函数。

3.1.2 RPN网络使用的Anchors

在RPN网络中每个滑动窗口预测k个候选框,每个候选框预测其是否包括目标还是只有背景,并定位其位置。因此每个位置分类分支预测2k个得分,回归分支预测4k个得分。预测的候选框是预定义的候选框(anchors)的一个相对偏移,每个anchor的中心位置与滑动窗口的中心相对。每个滑动窗口对应的anchors具有3个尺度和3个宽高比,共k=9个。对于大小为$W\times H$的feature map,其总共有$W\times H\times k$个anchors。

3.1.3 RPN网络的Loss Function

RPN网络的分类任务,正样本有两类anchors:a)跟grounth-truth具有最大IOU的anchor;b)跟gronth-truth的IOU大于0.7的anchor。这里单个ground-truth可能会为多个anchor分配正标签。负样本为IOU小于0.3的非正例。大于0.3小于0.7的anchors则被忽略。则loss函数可定义为:

其中i表示一个mini-batch中的一个anchor,$p_i$是预测第i个anchor概率。${p_i}^·$是真实的标签,1为正样本,0为负样本。$t_i$是预测的参数化的bbox坐标,${t_i}^·$真实的正样本的bbox的参数化坐标。分类loss使用交叉熵loss;回归loss采用smooth L_1。这里${p_i}^·L_{reg}$表示回归loss只使用正样本忽略负样本。作者通过以下方式对坐标进行参数化得到回归使用的grouth truth:

这里$x,y,w,h$表示两个中心坐标和宽高。这里$x,x_a,x^·$分别代表预测的box,anchor box和grouth truth box。

3.1.4 RPN网络的训练

  • 作者随机从每张图片中采样256个样本,其中正负样本的比例为1:1。如果正样本小于128个,则用负样本补充。
  • 新的网络层权重,使用0均值0.01标准差的高斯分布进行随机初始化。其它层则使用在Imagenet上进行预训练的权重进行初始化。
  • 对ZFnet的所有层进行训练,但是只对VGGNet conv3_1以上的层进行训练。
  • 在PASCAL数据集上,前60k个mini-batch的学习率为0.001,后20k个mini-batch的学习率为0.0001。
  • 动量参数为0.9,权重衰减系数为0.0005

3.2 通过4个步骤让RPN与Fast RCNN共享权重

这里作者并没有使用联和训练方式,而是使用了交替训练方式来让RPN和fast RCNN共享卷积层特征。
1.先利用ImageNet预训练模型来初始化RPN,然后fine-tune该网络用于region proposals任务。
2.使用ImageNet预训练模型来初始化RCNN,然后利用之前训练好的RPN网络预测得到的候选框口来构建样本,训练fast RCNN模型。
3.使用fast RCNN网络来初始化RPN,同时固定卷积层并fine-tune RPN网络的全连接层。到这里两个网络就同时共享了卷积层。
4.最后让卷基层的特征保持固定的情况下,来fine-tune Fast-Rcnn的全链接层。

3.3 实现细节

  • 训练和测试都使用短边re-scale为600的单尺度图片。
  • anchors采用3个尺度,$128^2,256^2,512^2$和3个宽高比,$1:1,1:2,2:1$。
  • 跨过边界的anchor作者将他们忽略,不做训练。对于大小为1000X600的图片,所有的anchor约有20k个,将跨边界的去除掉后大概剩下6k个。如果跨边界的anchor不去掉,会引入很多困难的样本,使得训练无法拟合。但是测试的时候会使用整个RPN网络进行测试,这样的话会使用到跨边界的anchor,也会生成跨边界的候选目标,这些候选目标会被clip到边界。
  • 在通过RPN网络得到候选之后,会使用NMS去过滤掉IOU高于0.7的候选,最后保留得分最高的2k个候选。最后使用这2k个候选来训练Fast R-CNN。但是测试的时候则不是使用2k个。

四、实验结果及重要结论

作者在PASCAL VOC2007和PASCAL VOC2012数据集上对提到的方法的有效性进行验证。PASCAL VOC2007包括了5k张trainval图像和5k张test图像,共有20个类别。ZFnet选用5层卷积3层全连接的版本,VGG选用13层卷积和3层全连接的版本。评价指标为mAP。

Table1给出了在不同proposal方法基础上使用Fast R-CNN来进行目标检测的性能。从Table1可以看出,RPN+ZF可以在只给出较少候选目标的情况下,达到比SS和EB更好的效果。在Table1中,作者也比较了不同变量对于目标检测的影响。作者发现:

  1. RPN和Fast RCNN共享特征会比不共享特征更好.
  2. 使用RPN网络产生的更多的候选目标可以得到更好的性能,但是当候选目标数量达到一定量之后,性能会趋于饱和。
  3. 使用nms抑制不会影响效果,反而会过滤掉一些假阳。
  4. RPN的分类任务可以用于挑选高质量的候选目标,使得用于下阶段的候选目标可以大大减少。
  5. RPN的回归任务对结果的影响很大.
  6. 提高RPN网络的性能可以提高最终整体的性能。

Table2和Table3给出了backbone使用VGG-16的Faster RCNN在PASCAL VOC 2007和PASCAL VOC 2012目标检测任务上的检出性能。从Table2和Table3中可以看出,在共享特征并只使用300个候选的情况下,backbone为VGG-16的RPN+Faster RCNN在PASCAL VOC2007和PASCAL VOC 2012目标检测任务上取得了比SS+Fast RCNN更好的结果,运行速度也远远比SS+Fast RCNN更快。

Table4对比了SS+Fast R-CNN和RPN+Fast R-CNN整个目标检测系统的运行速度。从Table4可以看出在使用RPN进行proposal后,整个系统的运行速度得到了极大的提升。

Figure2给出了不同的proposal方法,在不同IoU的情况下的召回率。从Figure2可以看出,RPN对于不同的proposals数量具有很强的稳定性,即使proposals数从2k降到300,对最终结果的影响也不大;而其它的proposal方法则对结果影响很大。

Table5对比了一阶段的目标检测和两阶段的目标检测方法的性能。从Table5可以看出Tow-Stage目标检测方法要比one-stage目标检测方法要好很多,在PASCAL VOC 2007上提升了约5个点。


转载请注明来源,欢迎对文章中的引用来源进行考证,欢迎指出任何有错误或不够清晰的表达。可以在下面评论区评论,也可以邮件至 524813168@qq.com

文章标题:2016_Faster R-CNN Towards Real-Time Object Detection with Region Proposal Networks(CVPR2016)shaoqing ren

文章字数:2.3k

本文作者:xieweihao

发布时间:2017-06-03, 20:57:56

最后更新:2020-02-05, 12:02:04

原始链接:http://weihaoxie.com/post/dcec0426.html

版权声明: "署名-非商用-相同方式共享 4.0" 转载请保留原文链接及作者。

目录
×

喜欢就点赞,疼爱就打赏