《基于协同过滤算法的电影推荐系统设计》18000字(论文) .pdf
基于协同过滤算法的电影推荐系统设计
目录
1引言1
1.1研究背景及意义1
1.2国内外研究现状2
1.3本文组织结构3
1.4运用的基本研究方法5
2推荐系统及经典推荐算法5
2.1推荐系统5
2.2基于内容的推荐5
2.3基于用的协同过滤推荐7
2.4各类推荐算法比较8
2.5相似度的计算方法9
3协同迫德算法的改进11
3.1问题的提出与分析11
3.1.1稀疏」性[可题11
3.1.2冷启动I可题11
3.2改进算法分析12
3.3算法改进思路15
3.3.1引入用静态数据14
3.3.2K-means聚类16
3.3.3Slopeone算法填充18
4改进算法的实现19
4.1数据与环境19
4.1.1数据集19
4.1.2实验环境19
4.2评估标准21
4.3实验方案22
4.4本章小结27
5论与展望28
5.1本文总结28
5.2工作展望28
参考文献29
1
摘要:突如其来的新冠疫情,让人们的生活方式、娱乐方式都发生了改变。在观影方式的
选择上,人们也开始由线下影院观看电影转移为线上观影为主。由于人们的线上观影需
求增大,影片数据也随之急剧增加。面对海量的电影信息,我们不仅可以让用通过搜
索引擎主动寻找想看的电影,而且也可以通过推荐系统在用没有明确需求时进行影片
推荐。通过对传统协同过滤算法的主要流程进行分析,旨在解决普遍存在的数据稀疏问
题,因此本文提出一种优化的算法:首先需要以数据集为范围聚类,随后在生成的子矩
阵中用Slopeone方式填充。最后,以实验的方式验证改进算法的有效性,以MAE、准确
率、召回率等多个指标,多方面比较传统协同过滤推荐算法和改良后算法的差别,以此
来证明本文提出的改进算法效果更佳。
关键词:协同过滤;电影推荐;聚类填充;Slopeone
1引言
1.1研究背景及意义
进入2021年,互联网的发展让“地球村”这一概念成为可能,越来越多的人通过互联网
可以方便快捷的与世界产生联系。经最新公布的调查数据显示,我国的互联网普及率逐年提
高,截至2020年底,我国网民数量再创新高,约为10亿人口左右,城市、农村及偏远地区的
互联网普及率达70%左右。互联网的快速发展也使得网络上的信息花样繁多、鱼龙混杂,人
类飞速地进入了信息急速膨胀的互联网大数据时代。然而,大数据时代所带来的并不都是令
人欢欣鼓舞的消息,信息茧房的效应也越来越明显。事实上如何让信息更加高效的抵达需要
信息的人,让信息更高效的被收集和利用,同时避免信息茧房效应。目前,互联网时代下人
们想要高效利用的信息主要有以下两种具有代表性的方式,分别是互联网信息检索技术和对
信息的过滤技术,信息检索技术主要是以移动互联网的搜索引擎为代表,这种技术已经在互
联网时代取得了广泛的应用。然而,信息检索的技术往往是需要使用者对自己的需要进行准
确地描述,再进行搜索,而一方面用可能难以精准表达自己的搜索需求,另一方面,关键
字的检索结果可能不能真正地满足用的信息需求。
协同过滤算法是推荐算法中最为重要的一种,不仅仅在现在的互联网商业世界有着大规
模的广泛应用,在学术研究方面也存在着巨大的价值。推荐系统在我们日常生活中的应用给
我们带来了极大的便利,比如说网易云音乐等互联网音乐平台会根据你过往喜好的听歌历史
给用推荐其可能偏爱的音乐,美团、饿了么等外卖平台会根据用喜好的饭菜口味给用
推荐其最可能点的外卖商家,抖音、快手等短视频平台会根据用偏好的短视频类型给用
推荐短视频。并且协同过滤技术中推荐资源多样化,可以很好地避免推荐同质化和信息茧房
效