YOLOv3

摘要

作者对YOLOv2进行了一些改进,使之在保持实时检测的同时,准确率又有所提升了。

介绍

作者说他这一年(18年)基本没干啥,就是打打电话,玩玩推特,偶尔还帮别人干点活。。

然后因为只对YOLO做了一些改进,但是并没什么特别的地方,因此就写了这一篇技术报告,而没有选择发表成论文形式。

The Deal

作者说了,他们大部分的工作都是从别人那里吸取好的点子,同时训练了一个新的分类器网络(比别人的好,恩。。)

Bounding Box Prediction

和YOLO9000一样,在预测bounding box时使用了dimension clusters和anchor boxes。

YOLOv3在预测每个bouding box的objectness score时,使用的是logistic regression。

与faster rcnn不同的是,作者的系统只会给每个gt object指派一个bounding box。如果没有指派的话,就说明没有对象的box坐标,只有objectness。

Class Prediction

每个box使用了多标签分类,作者不选择softmax是因为发现它很难取得好的效果,因此,改用一个单独的logistic classifiers。在训练阶段,使用binary cross-entropy loss来进行类别预测。

Predictions Across Scales

YOLOv3在三种不同的scales下进行预测。

Feature Extractor

作者使用了一个新的网络模型来提取特征,主要是在Darknet-19中引入了residual network stuff,最终模型的卷积层数达到53层,也就是Darknet-53。

Training

仍然使用不带hard negative mining的图片训练。同时使用了multi-scale training,data augmentation,batch normalization,以及其他的一些标准程序。

How We Do

根据不同的评价标准,YOLO的性能差异较大,总的来说主要是因为YOLO虽然能标出物体的大致位置,但是画出的框并不是“完美”,使得在IOU要求高的评价标准上,YOLO的得分很低。

另外, 之前的YOLO在检测小物体上往往有很多瓶颈,而目前的YOLO已经在慢慢克服这方面的缺陷

Things We Tried That Didn’t Work

Anchor box $x,y$ offset predictions

Linear $x,y$ predictions instread of logistic

Focal loss

Dual IOU thresholds and truth assignment

What This All means

最后,作者说了为什么要选择其他的评价标准。

对于人类来说,很难直接区分出IOU0.3和IOU0.5之间的差别,那么作者要求计算机这样做是否合理呢(我认为是合理的。。。)

最后作者说出了对计算机视觉未来发展的一些“愿景”。(作者反对隐私泄漏和军事用途)