机器学习评价指标
评价指标的引出
为什么要引出这么多评价指标,它是基于什么样的需求?
在生活中,最常用的就是准确率,因为它定义简单而且比较通用,但在机器学习中,它往往不是评估模型的最佳工具,特别是在数据分布不平衡的时候,请看一个例子:
比如我们训练了一个预测地震的模型,预测类别只有两个:0:不发生地震、1:发生地震,当前有100个测试集,如果模型无脑把每一个测试用例都预测为0,那么它就达到99%的准确率,但实际上它并不具有预测的能力,为什么会出现这种情况?因为这里数据分布不平衡,类别为1的数据太少,完全分错类别1,依然可以达到很高的准确率,因此在正负样本不平衡的情况下,准确率这个评价指标就有很大的缺陷。(这里的正负是相对于任务来说的,对于预测地震这个任务而言,目标是预测出地震,所以地震就是正例)
准确率是关注了所有分类正确的,当正负样例分布不平衡时,负例占据了绝大多数,而正例得不到体现,因此会造成分数高的情况,那么一个很自然解决的办法就是我们聚焦于关注正例的识别,于是就引出了精确率(精度)、召回率等指标。
一级指标
准确率、精确率、召回率等这些评价指标都是基于底层的统计指标(一级指标)计算出来的。
对于一个二分类问题,模型的预测结果有四类:
- 真正例,模型预测为正例,结果是真的,所以实际是正例(True Positive=TP)
- 假正例,模型预测为正例,结果是假的,所以实际是负例(False Positive=FP)
- 真负例,模型预测为负例,结果是真的,所以实际是负例(True Negative=TN)
- 假负例,模型预测为负例,结果是假的,所以实际是正例(False Negative=FN)
缩写可能比较容易搞混,注意前面的真假是修饰后面模型预测的正负,是对模型的预测结果的描述,比如第2个,假正例,表示模型预测的是正例,但是结果是假的,意思是实际它是负例,好好体会(手动狗头)
将这四个指标放在表格里就能得到如下这样一个矩阵,称它为混淆矩阵(Confusion Matrix):
二级指标
有了混淆矩阵,就可以进一步计算准确率、精确率(精度)、召回率了,这些属于二级指标,计算方式如下:
可以看到,相比准确率的全局关注,精确率和召回率更多的关注了正例的内容
三级指标
F1值
有了精确率和召回率,为什么还要引入F1值指标呢?
在实际应用中,模型的精确率和召回率是矛盾的,一个高一个就低,以预测地震为例,测试集中1000天中有10天地震,假如模型不轻易预测为地震,但一个预测一个准,1000天就预测了一天为地震(预测对),那么它的精确率就为1,但召回率只有10%,假如模型随便就预测为地震,预测了100天地震(预测出了全部),那召回率为1,但精确率就只有10%。
所以需要综合的考虑两者的分数,于是就引入了F1值,它是精确率和召回率的调和平均,计算方式为:
F1-Score 的取值范围从0到1的,1代表模型的输出最好,0代表模型的输出结果最差,很多常见的任务,比如命名实体识别就拿它作为评价指标。
ROC和AUC
在二分类问题中还有一个经常使用的评价指标AUC(Area Under roc Curve),而计算AUC依赖于ROC(Receiver Operating Characteristic)曲线。为什么需要这样一个指标?
我们都知道准确率,精确率,召回率,F1-Score等这些指标只能反映模型在某一状态下的性能,而我们给模型不同的分类阈值,模型是是会有不同的性能表现的,那么AUC就是一种能够反映模型全局性能的指标。
首先介绍一下ROC曲线,ROC曲线使用真正率(TPR) = TP/(TP+FN),也就是召回率作为纵坐标,使用假正率(FPR)= FP/(FP+TN)作为横坐标,然后不断调整这个分类器的分类阈值,我们就可以得到一个经过(0, 0),(1, 1)的曲线,这就是此分类器的ROC曲线。一般情况下,这个曲线都应该处于(0, 0)和(1, 1)连线的上方。因为(0, 0)和(1, 1)连线形成的ROC曲线实际上代表的是一个随机分类器。如下图所示:
对于这个图,我们当然希望系统TPR越高(覆盖的越多越好),同时FPR越低(虚报的越少越好),反映在图中即ROC曲线越陡,那么模型的性能就越好,于是AUC(Area Under roc Curve)就出现了,AUC的值就是处于ROC 曲线下方的那部分面积的大小。通常,AUC的值介于0.5到1.0之间,较大的AUC代表了较好的性能。因此,AUC是一种用来度量分类模型好坏的一个标准,我们可以通过计算AUC值来对比不同模型性能。
AUC和ROC有一个特点,即可以无视样本的不平衡问题,因为涉及的真正率(TPR)和假正率(FPR)两个指标是分别在实际的正样本和负样本中来进行考察的,所以无论样本是否平衡,都不会被影响。比如总样本中,90%是正样本,10%是负样本。我们知道用准确率是有水分的,但是用TPR和FPR不一样。这里,TPR只关注90%正样本中有多少是被真正覆盖的,而与那10%毫无关系,同理,FPR只关注10%负样本中有多少是被错误覆盖的,也与那90%毫无关系,这样就可以避免样本不平衡的问题了。
检索/搜索系统中的评价指标
在检索/搜索系统中,通常会给定一个query,然后通过对系统返回的top k个结果进行统计来评价系统的性能,对返回结果的判定可以是相关和不相关两种,也可以是更细粒度的相关性,这里我们主要考虑前者。
AP/MAP
检索系统中也经常使用准确率(Precision,其实就是分类问题中的精确率,不过检索系统里面大家都叫准确率) = 相关文档总数 / 返回的结果总数 = TP / (TP + FP)和召回率(Recall)= 相关文档总数 / 所有文档总数 = TP / (TP + FN) 来评价系统。
我们都知道检索系统还关心的另外一个事是文档的“位置”,相关文档排序的位置越靠前肯定越好,而Precision和Recall只是去评价检索结果“多大比例”这件事,对位置排序是不敏感的,所以就有了AP(Average Precision)。
在介绍AP之前,先引入Precision-recall曲线概念。Precision-recall曲线(PR曲线)与ROC曲线的区别是横轴和纵轴不同,PR曲线的横轴Recall也就是TPR,反映了分类器对正例的覆盖能力。而纵轴Precision的分母是识别为正例的数目,而不是实际正例数目。Precision反映了分类器预测正例的准确程度。那么,Precision-recall曲线反映了分类器对正例的识别准确程度和对正例的覆盖能力之间的权衡。对于随机分类器而言,其Precision固定的等于样本中正例的比例,不随recall的变化而变化。
与AUC相似,AP就是PR曲线与X轴围成的图形面积。
此外,对于网页排序场景,还需要引入MAP(Mean Average Precision),MAP是所有查询结果排序的AP平均。mAP(Mean Average Precision,平均精度均值),是把每个类别的AP都单独拿出来,然后计算所有类别AP的平均值,代表着对检测到的目标平均精度的一个综合度量。
AP是一个query的查询结果,MAP就是多个query查询的平均正确率(AP)的均值,从整体上反映模型的检索性能。
RR/MR/MRR
RR(reciprocal rank)倒数排名,指检索结果中第一个相关文档的排名的倒数。
MR(Mean Rank)平均排名。
MRR(mean reciprocal rank)是指多个查询语句的排名倒数的均值,是一个国际上通用的对搜索算法进行评价的机制,即第一个结果匹配,分数为1,第二个匹配分数为0.5,第n个匹配分数为1/n,如果没有匹配的句子分数为0。最终的分数为所有得分之和。其计算公式如下所示:
Hits@n
该指标是指在链接预测中排名小于n的三元组的平均占比。具体的计算方法如下:
其中,上述公式涉及的符号和MRR计算公式中涉及的符号一样,另外II(·)
是indicator函数(若条件真则函数值为1,否则为0)。一般地,取n等于1、3或者10。该指标越大越好。
KGE最常用的评价指标
知识图谱嵌入(Knowledge Graph Embedding,KGE)模型性能中最常用的几个指标:MRR,MR,HITS@1,HITS@3,HITS@10。
MRR和HITS@10是两个重要指标,不可缺少。MR则不被认为是一个好的指标。