推荐系统评测方法和指标

"推荐系统评测方法和指标"

目录

前提

假设研究的是是TopN推荐问题,即推荐的任务是预测用户会不会对物品进行评分(或其他行为),程序上表现为是否会产生一条‘用户-物品’记录。

离线评测方法(交叉验证)

将用户行为数据集均等分成M份,挑选一份作为测试集,剩下的M-1份作为训练集。为了防止过拟合的测试结果,需要进行M次试验,使得每份数据集都有一次作为测试集的机会,然后以M次测试的平均值作为最终的评测指标。

离线评测指标

召回率

召回率描述有多少比例的用户-物品记录包含在最终的推荐结果列表里。即推荐正确的数量与实际记录数之比。

准确率

准确率描述最终推荐结果列表中有多少比例是在发生过的用户-物品记录里。即推荐正确的数量与推荐总个数之比。

覆盖率

覆盖率反映了推荐算法挖掘长尾的能力。覆盖率表示最终的推荐列表中包含多大的物品,如果所有物品都被推荐给至少一个用户,那么覆盖率就是100%。

新颖度

可以用推荐列表中物品的平均流行度度量推荐结果的新颖度,如果推荐出的物品都很热门,说明推荐的新颖度较低。