高职图书馆用户数据环境分析及推荐算法适用性研究.pdf
高职图书馆用户数据环境分析及
推荐算法适用性研究
王又平
(天津职业大学图书馆天津300410)
摘要】推荐算法在高职院校图书馆领域的理论研究和应用正处于发展的初级阶段,有广阔的应用
前景。文章分析了高职图书馆用户数据环境,梳理结了用户数据类型、置信度、显式及隐式数据的特
性及优缺点,并分析各类推荐算法思想的优势与局限性以及在高职图书馆用户数据环境中的适用性。
关键词】高职图书馆;推荐算法;显隐式数据
推荐算法在国内的应用非常广泛,除了电子商务领购买、收藏、评论、分享等数据,其特点是用户有显式地
域,近年来也被应用在社交媒体和短视频领域,目前推给item打分,用户对item的感兴趣程度都体现在他对item
荐算法在高校图书馆领域的理论研究与应用探索还处的浏览、点击、购买、收藏、评论、分享等行为的强度。
于发展的初级阶段,有广阔的研究空间和应用前景。本“隐式数据”的优点是容易获取,数据量很大。因为几乎所
文分析高职图书馆掌握的用户数据种类、数据类型、显有用户都会有浏览、点击等行为,所以数据量大,而且几
式及隐式数据以及数据置信度,并根据算法思想的不同乎覆盖所有用户,不会导致数据偏颇。其缺点是置信度
对个性化推荐系统常见算法进行分类梳理和总结,分析不如显式数据高,比如用户浏览不一定代表感兴趣,还要
各类推荐算法思想在高职图书馆用户数据环境中的适看强度,经常浏览同一类东西才能以较置信度认为用
用性。户感兴趣。
一般用户在网站能看到的评分方式是“主动评分”,
一、显式数据和隐式数据
即“显性反馈行为”。如豆瓣电影中的评分机制和抖音等
用户行为数据分为显式数据和隐式数据两种。“显短视频平台中的“点赞”功能都是典型的显性反馈。还有
式数据”也可称为“显性数据”,指可以直观反映用户喜好一种用户看不到的“被动评分”,是根据用户的行为记录
的数据,即用户对被评价项目(以下简称item)的显式打由系统代替用户完成评价,不需要用户直接打分或输入
分,比如用户对书籍、商品的评分,通常有5分制和10分评价数据。如用户在京东的图书浏览日志、在网易云
制。优点是行为的置信度高,因为是用户明确给出的打听歌的日志等,实际京东和网易已经得到了一定的用
分,可以真实反映用户对item的喜欢程度。缺点是显式数户行为数据,但有以显性方式直接反馈,而是在其他地
据在数据收集方面难度较大,用户大多具有惰性不愿对方间接地反馈出来。
item进行评级,这就容易导致数据量小且非常稀疏;同时
二、高职图书馆用户数据环境
这部分评分也仅代表了小部分用户的兴趣,可能会导致
数据有失偏颇;此外用户打分行为还可能存在撒谎现职院校图书馆一般可以掌握两类用户数据,如表1
象,如故意给某部看过的作品打低分。所示。一是用户人口特征数据,如学生专业、年龄、性别
“隐式数据”也可称为“隐性数据”,指那些不是很直等;二是用户行为数据,如用户进出馆、座位预约、研讨间
,如用户对点击、、图书检索记录
观地反映用户喜好的数据item的浏览、预约、图书借还、图书预约、推荐购买图书