机器学习基本概念

PR 曲线

Accuracy: $ACC = \frac{TP+TN}{FP+FN+TP+TN}$
Precision: $PRE = \frac{TP}{TP+FP}$
TPR(召回率): $TPR = \frac{TP}{TP+FN}$
FPR(误诊率): $FPR = \frac{FP}{FP+TN}$

PR 曲线刻画了查准率和查全率(召回率)之间的关系. 查准率指的是在所有预测为正例的数据中, 预测正确的数据所占的比例, 查全率是指预测正确的数据在所有正例的比例. 查准率和查全率一般来说是一对矛盾的度量, 当查准率高时, 查全率往往偏低, 查全率高时, 查准率往往偏低.

在很多情况下, 我们可以根据学习器的预测结果对样例进行排序, 排在前面的是学习器认为最可能是正例的样本, 排在后面的是学习器认为最不可能是正例的样本, 按此顺序逐个把样本作为正例进行预测, 则每次可以计算当前的查全率和查准率, 以查准率为 y 轴, 以查全率为 x 轴, 就可以得到相应的 PR 曲线.

如果一个学习器的 PR 曲线被另一个学习器的 PR 曲线完全包住, 则可断言后者的性能优于前者, 当不能完全包住时, 我们可以根据曲线下方的面积大小来进行比较, 面积大的性能好, 但更常用的是利用 平衡点(全准率 = 查全率) 进行比较, 平衡点的值越大, 则认为学习器的性能越好.

ROC 曲线

ROC: Receiver Operating Characteristic (相关操作特征曲线)

召回率(TPR)作 $y$ 轴, 误诊率(FPR)作 $x$ 轴.

在 ROC 曲线上, 最完美的点是 $(0, 1)$ 点, 该点代表学习器的误诊率为 0, 召回率为 100%. 一个完全随机的预测会得到一条从左下到右上的对角线(也叫误识别率线), 该对角线上的任意一点对应的 ACC 都是 50%(召回率和误诊率相同).