大数据在互联网领域的应用.pptx
4.1大数据在互联网领域的应用;;;;推荐系统模型
;推荐系统的应用;协同过滤
协同过滤分为基于用户的协同过滤与基于物品的协同过滤。
基于用户的协同过滤(UserCF)
该算法于1992年被提出,符合人们对于“趣味相投”的认知,即兴趣相似的用户往往有相同的物品喜好。
UserCF算法的实现主要包括两个步骤:
找到和目标用户兴趣相似的用户集合。
找到该集合中的用户所喜欢的、
且目标用户没有听说过的物品
推荐给目标用户。
;实现UserCF算法的关键步骤是计算用户与用户之间的兴趣相似度。
目前较多使用的相似度算法有:
泊松相关系数(PersonCorrelationCoefficient)
余弦相似度(Cosine-basedSimilarity)
调整余弦相似度(AdjustedCosineSimilarity)
给定用户u和用户v,令N(u)表示用户u感兴趣的物品集合,令N(v)为用户v感兴趣的物品集合,则使用余弦相似度进行计算用户相似度的公式为:
得到用户间的相似度后,再使用如下公式来度量用户u对物品i的兴趣程度Pui:
;基于物品的协同过滤(ItemCF)
Amzon和Netflix的推荐系统的基础是ItemCF算法。
ItemCF算法主要通过分析用户的行为记录来计算物品之间的相似度,给目标用户推荐那些和他们之前喜欢的物品相似的物品。
ItemCF算法与UserCF算法类似,计算也分为两步:
计算物品之间的相似度;
根据物品的相似度和用户的
历史行为,给用户生成推荐列表。
;;;UserCF算法和ItemCF算法对比
UserCF算法和ItemCF算法的思想、计算过程都相似,两者最主要的区别:
UserCF算法推荐的是那些和目标用户有共同兴趣爱好的其他用户所喜欢的物品;ItemCF算法推荐的是那些和目标用户之前喜欢的物品类似的其他物品。
UserCF算法的推荐更偏向社会化,而ItemCF算法的推荐更偏向于个性化。;协同过滤实践;#主程序
if__name__==__main__:
file_user_movie=u.data
user_movie={}#存放用户对电影的评分信息
forlineinopen(file_user_movie):#读数据并解析到字典中
user,item,score=line.split(\t)[0:3]
user_movie.setdefault(user,{})
user_movie[user][item]=int(score)
W=ItemSimilarity(user_movie)#计算电影的相似度
result=Recommend(1,user_movie,W,10,10)#计算推荐结果,并取Top-10的结果,对用户‘1’进行推荐
user_movie.clear()#清除数据
file_movie_info=u.item
movies={}#存放电影的基本信息
forlineinopen(file_movie_info):
(movieId,movieTitle)=line.split(|)[0:2]
movies[movieId]=movieTitle
#以表格形式输出推荐排名Top-10
printIDMovieRating
print-------------------------------------------------------------------------------------
fori,ratinginresult:
print%4s%60s%f%(i,movies[i],rating)
;importmath
defItemSimilarity(user_movie):#计算电影间的相似度矩阵W
C={}#字典数据,最终物品相似度矩阵
N={}#字典数据,每部电影的评分人数
foruser,itemsinuser_movie.items():#对所有评分数据进行处理
foriinitems.keys():
N.setdefault(i,0)
N[i]+=1
C.setdefault(i,{})
forjinitems.keys():
ifi==j:contin