推荐系统评测

什么才是好的推荐系统？这是推荐系统需要解决的首要问题。一个完整的推荐系统一般存在3个参与方：用户、物品系统者和提供推荐系统的网站。

评测指标

评测指标可用于评价推荐系统各方面的性能

1.用户满意度

用户作为推荐系统的重要参与者，其满意度是评测推荐系统的最重要指标。但是，用户满意度没有办法离线计算，只能通过用户调查或者在线实验获得。

用户调查获得用户满意度主要是通过调查问卷的形式。用户对推荐系统的满意度分为不同的层次。GroupLens曾经做过一个论文推荐系统的调查问卷，该问卷的调查问题是请问下面哪句话最能描述你看到推荐结果后的感受？

推荐的论文都是我非常想看的。
推荐的论文很多我都看过了，确实是符合我兴趣的不错论文。
推荐的论文和我的研究兴趣是相关的，但我并不喜欢。
不知道为什么会推荐这些论文，它们和我的兴趣丝毫没有关系。

由此可以看出，这个调查问卷不是简单地询问用户对结果是否满意，而是从不同的侧面询问用户对结果的不同感受。比如，如果仅仅问用户是否满意，用户可能心里认为大体满意，但是对某个方面还有点不满，因而可能很难回答这个问题。因此在设计问卷时需要考虑到用户各方面的感受，这样用户才能针对问题给出自己准确的回答。

在在线系统中，用户满意度主要通过一些对用户行为的统计得到。比如在电子商务网站中，用户如果购买了推荐的商品，就表示他们在一定程度上满意。因此，我们可以利用购买率度量用户的满意度。此外，有些网站会通过设计一些用户反馈界面收集用户满意度。

满意度

2.预测准确度

预测准确度度量一个推荐系统或者推荐算法预测用户行为的能力。这个指标是最重要的推荐系统离线评测指标，从推荐系统诞生的那一天起，几乎99%与推荐相关的论文都在讨论这个指标。这主要是因为该指标可以通过离线实验计算，方便了很多学术界的研究人员研究推荐算法。

一般我们的离线推荐算法有两个不同的方向，一个是评分预测，另一个是TopN推荐

评分预测

很多提供推荐服务的网站都有一个让用户给物品打分的功能。那么，如果知道了用户对物品的历史评分，就可以从中习得用户的兴趣模型，并预测该用户在将来看到一个他没有评过分的物品时，会给这个物品评多少分。预测用户对物品评分的行为称为评分预测。

评分预测的预测准确度一般通过均方根误差（RMSE）和平均绝对误差（MAE）计算。

def RMSE(records):  
    return math.sqrt(sum([(rui-pui)*(rui-pui) for u,i,rui,pui in records])/float(len(records)))  

def MAE(records):  
    return sum([abs(rui-pui) for u,i,rui,pui in records])/ float(len(records))

TopN推荐

令R(u)是根据用户在训练集上的行为给用户作出的推荐列表，而T(u)是用户在测试集上的行为列表。那么，推荐结果的召回率定义为：

推荐结果的准确率定义为：

def PrecisionRecall(test, N):  
    hit = 0
    n_recall = 0
    n_precision = 0
    for user, items in test.items():  
        rank = Recommend(user, N)  
        hit += len(rank & items)  
        n_recall += len(items)  
        n_precision += N  
    return [hit / (1.0 * n_recall), hit / (1.0 * n_precision)]

关于评分预测和TopN推荐的讨论:

网站在提供推荐服务时，一般是给用户一个个性化的推荐列表，这种推荐叫做TopN推荐。TopN推荐的预测准确率一般通过准确率（precision）/召回率（recall）度量

评分预测一直是推荐系统研究的热点，绝大多数推荐系统的研究都是基于用户评分数据的评分预测。这主要是因为，一方面推荐系统的早期研究组GroupLens的研究主要就是基于电影评分数据MovieLens进行的，其次，Netflix大赛也主要面向评分预测问题。因而，很多研究人员都将研究精力集中在优化评分预测的RMSE上。对此，亚马逊前科学家Greg Linden有不同的看法。2009年, 他在Communications of the ACM网站发表了一篇文章，指出电影推荐的目的是找到用户最有可能感兴趣的电影，而不是预测用户看了电影后会给电影什么样的评分。因此，TopN推荐更符合实际的应用需求。也许有一部电影用户看了之后会给很高的分数，但用户看的可能性非常小。因此，预测用户是否会看一部电影，应该比预测用户看了电影后会给它什么评分更加重要。

机器学习课件

推荐系统评测

推荐系统的实验方法

评测指标