摘要

作者对YOLOv2进行了一些改进，使之在保持实时检测的同时，准确率又有所提升了。

介绍

作者说他这一年（18年）基本没干啥，就是打打电话，玩玩推特，偶尔还帮别人干点活。。

然后因为只对YOLO做了一些改进，但是并没什么特别的地方，因此就写了这一篇技术报告,而没有选择发表成论文形式。

作者说了，他们大部分的工作都是从别人那里吸取好的点子，同时训练了一个新的分类器网络（比别人的好，恩。。）

和YOLO9000一样，在预测bounding box时使用了dimension clusters和anchor boxes。

YOLOv3在预测每个bouding box的objectness score时，使用的是logistic regression。

与faster rcnn不同的是，作者的系统只会给每个gt object指派一个bounding box。如果没有指派的话，就说明没有对象的box坐标，只有objectness。

每个box使用了多标签分类，作者不选择softmax是因为发现它很难取得好的效果，因此，改用一个单独的logistic classifiers。在训练阶段，使用binary cross-entropy loss来进行类别预测。

YOLOv3在三种不同的scales下进行预测。

作者使用了一个新的网络模型来提取特征，主要是在Darknet-19中引入了residual network stuff，最终模型的卷积层数达到53层，也就是Darknet-53。

仍然使用不带hard negative mining的图片训练。同时使用了multi-scale training，data augmentation，batch normalization，以及其他的一些标准程序。

根据不同的评价标准，YOLO的性能差异较大，总的来说主要是因为YOLO虽然能标出物体的大致位置，但是画出的框并不是“完美”，使得在IOU要求高的评价标准上，YOLO的得分很低。

另外，之前的YOLO在检测小物体上往往有很多瓶颈，而目前的YOLO已经在慢慢克服这方面的缺陷

Anchor box $x,y$ offset predictions

Linear $x,y$ predictions instread of logistic

Focal loss

Dual IOU thresholds and truth assignment

最后，作者说了为什么要选择其他的评价标准。

对于人类来说，很难直接区分出IOU0.3和IOU0.5之间的差别，那么作者要求计算机这样做是否合理呢（我认为是合理的。。。）

最后作者说出了对计算机视觉未来发展的一些“愿景”。（作者反对隐私泄漏和军事用途）