25 | 评估指标:我们可以用哪些指标来衡量模型的好坏?
25 | 评估指标:我们可以用哪些指标来衡量模型的好坏?
讲述:王喆
时长19:39大小17.95M
低阶评估指标
1. 准确率
2. 精确率与召回率
3. 对数损失
4. 均方根误差
高阶评估指标
1. P-R 曲线
2. ROC 曲线
3. 平均精度均值
合理选择评估指标
小结
课后问题
赞 10
提建议
精选留言(21)
- Geek_b862852020-12-26ROC曲线,FPR=FP/N,TPR=TP/P,当我们将负样本复制10倍时,TPR显然不会变,FPR是负样本中被预测为正样本的比例,这其实也是不变的,那整个ROC曲线也就没有变。PR曲线,精确率P=TP/(TP+FP),TP不变,FP增大,而召回率R没有变,显然ROC曲线更稳定一些
作者回复: 非常好,这也是我们实验和实践中更喜欢用ROC的原因。
共 3 条评论31 - 张弛 Conor2020-12-09P-R曲线的优点是能够表现精确率与召回率平衡的过程,缺点是无法显示明确的阈值,且缺乏对TN的考量。ROC曲线不仅能表现假阳性率与真阳性率的平衡,还可以表现出具体的阈值,也考量了TN,但缺乏对FN的考量。在正负样本不均衡的情况下,FN会较大,FP会较小,因此正样本性能的改进主要在于降低FN,P-R曲线中的召回率更关注FN,所以使用P-R曲线更好。
作者回复: 非常好。
共 4 条评论13 - PatrickPro22021-05-25老师,工业界在用指标评估排序列表结果时,最最常用的指标是啥?我上学期上了cmu的搜索引擎这门课,我们教授说MAP和NDCG是最常用的,其中NDCG应该是效果最好的,因为NDCG考虑到了每个数的实际相关性和模型预测出的排序顺序。 我还有个问题:Diversity在推荐系统中重要吗?如果重要的话,是不是除了以上这些指标,还需要用到诸如Precision-Intent aware@K和alpha-NDCG这些指标进一步分析模型效果呢?展开
作者回复: 离线主要用AUC和gAUC。但工业界离线指标主要是参考作用,最重要的还是在线指标。 diversity比较重要,但一般是secondary metric,一般不作为主要优化的指标
5 - 那时刻2020-12-10提供一个通过confusion matrix理解precision,recall, roc的文章,https://www.biostat.wisc.edu/~page/rocpr.pdf,大家可以参考一下
作者回复: 赞
3 - Sebastian2020-12-09老师,想额外问一个关于CTR指标计算的问题:在AB测试中,如何合理的比较AB测试中两者的CTR指标呢?会不会一天内,某个时间段A桶的CTR高于B桶,但是某个时间段A桶又小于B桶,那这种该如何比较AB哪个算法更好?
作者回复: 这个问题还挺有意思。当然是没有标准了,你想怎么比较都行,越是fine grain比较,越能比出东西。 像你说的情况,我们居然发现两个模型在不同时段的效果有不同,如果这个pattern比较固定的话,为什么我们不能把他们综合起来使用,形成一个time based model呢?这不是我们通过评估发现的改进点吗?
4 - 小强2021-02-19在实际工作中,一般是如何定义正样本和负样本的呢?首先,这个正样本和负样本应该是应用户而异吧?其次,以电影推荐为例,对于某个用户A,我们是把用户A之前看过的电影都定义成正样本,然后没有看过的电影都标记为负样本嘛?还是有其他什么方法?
作者回复: 正样本比较好说,就是你定义的一些正向的行为,比如点击、播放、购买等等。负样本其实看你的选择了,有纯random的,也有曝光未点击等等。
2 - JustDoDT2020-12-11个性化推荐,不是每个人的推荐结果都不一样吗。为啥说ROC、P-R是全量数据,我认为是针对每个人的全量物品推荐,文中的全量是指全量物品吗。mAP严格意义上说是用到了全量的用户和物品。
作者回复: ROC曲线,P-R曲线是对全量样本在一起排序,不区分用户,所以这里说是全量数据。
共 2 条评论2 - 那时刻2020-12-09感觉通过confusion matrix(混淆矩阵)理解precision,recall以及TPR,FPR会更加形象些
作者回复: 是这样,如果有好的文章可以分享到留言区。
2 - 飞行器2021-10-19老师好,召回率(Recall)是分类正确的正样本个数占真正的正样本个数的比例。但是在实际环境中对于召回率的计算比较困难吧,对于实际生产中海量的数据,很难找到所有真正正样本的个数吧?那如何进行离线评估召回率的计算呢?
作者回复: 比如一个点击率预估问题,所有点击样本就是所有的真正正样本的个数。 当然你无法列出真正的ground true,只能通过历史数据来评估。
1 - 努力学习2021-03-25请问老师,归一化折扣累计收益(Normalized Discounted Cumulative Gain,NDCG)这个评价指标,我在看论文时发现 TOP K推荐随着K取值的增加,同几种算法在不同的论文里 NDCG有的随K增加而增加 有的随K增加而减小,请问这是什么原因?
作者回复: 这里面变量太多了,不同论文对于不同算法的实现方法肯定有细节上的差异,数据集,一些超参数的选取肯定也存在不同。所以在NDCG上表现不一致太正常了。
1 - fsc20162020-12-09在正负样本不均衡的情况下,roc曲线更加稳定和权威,更加稳定的反映模型本身的好坏。
作者回复: 非常好
1 - jxxiao2022-06-09以推荐业务为例,模型通常是以优化ctr和cvr为目标,但是业务指标可能是ARPU,这之间的gap怎么处理呢?
- 飞行器2021-10-23老师好,一个follow up的问题,就是当我们选取点击作为正样本的时候,是否会存在曝光偏差或者是不同用户点击不同的问题,即从用户A的角度考虑,item 1是点击作为正样本,但是从用户B考虑,item 1仅只是曝光样本,甚至对于用户B来说可能是一个hard case的负样本,那如果按照合并所有用户点击作为正样本进行评估的话(特别是recall),是否对于某一部分用户是没有代表性的?那如果采用类似gAUC的方式进行评估,数据又会太稀疏,正样本太少。对于这种情况,请教老师在实际工作中是否又一些经验可以借鉴?展开
作者回复: 实际工作中也是用AUC,gAUC,logloss的方式评估,离线评估本身就是作为参考指数快速过滤一些不靠谱方案,不能想的太细,太完美化
共 2 条评论 - PiccoZ2021-09-26老师,这些评价指标是不是都针对精排,请问下召回侧应该使用什么评价指标呢
作者回复: 现在的召回层也提倡按照最终的排序指标进行评估。但会更看重recall一些。
- Karty2021-07-29老师您好,我想请教一下,新用户AUC较低,老用户AUC较高,一般是哪些原因造成的?
- 小峰™ =エ=®2021-07-01老师你好,针对现实数据集中点击率只有1~10%,训练集正负样本数量偏差的问题——使用样本平衡的方法,对负样本进行下采样来,最终实现训练集正负样本1:1,这样的方法是否可行?这样出来准确率是降低了,但模型对正样本的判定会更敏感些,不知道这样理解对不对?
作者回复: 当然是可行的,非常常用的做法。但要在inference过程中做ctr calibration
共 2 条评论1 - idiot2021-05-20“以AUC为主,补充分析mAP”,这里是怎么个标准呢?auc和map都有改进才到后续实验,还是都没有明显下降就到后续实验?如果是前者,有升有降怎么办?
作者回复: 一般是都有改进才进入线上实验。因为一般来说二者是有较强相关性的。如果一个升一个降,证明不是特别显著。当然模型评估没有统一的标准答案,更多根据自己的判断。
- 小强2021-04-20请问Hit Rate,Average Reciprocal Hit Rate这一组指标在工业界中应用的是否常见啊?
作者回复: 不是非常常见,但经常使用hit rate来去做一些辅助问题的定位,比如embedding的覆盖率,新用户的比例和效果等等,不是首要的参考指标。
- 灯灯灯2021-01-23老师您好, 我还是不理解 ‘’ROC曲线,P-R曲线是对全量样本在一起排序,不区分用户‘’。不区分用户的话样本的真实标签如何确定呢?
作者回复: 不区分用户指的是把所有样本在一起排序生成ROC曲线
- SecooHR2020-12-12文章的FP 定义不对吧, FP 指的是 N 个负样本中被分类器预测为正样本的个数。 另外 P-R ROC 可以参考 这个 http://blog.sina.com.cn/s/blog_17b9e19320102x7ru.html
作者回复: 是的,这里确实有笔误。会尽快更正,多谢!