MAHOUT实战--高清版.pdf
文本预览下载声明
封面页
书名页
版权页
前言页
目录页
第1章 初识Mahout
1.1 Mahout的故事
1.2 Mahout的机器学习主题
1.2.1 推荐引擎
1.2.2 聚类
1.2.3 分类
1.3 利用Mahout和Hadoop处理大规模数据
1.4 安装Mahout
1.4.1 Java和IDE
1.4.2 安装Maven
1.4.3 安装Mahout
1.4.4 安装Hadoop
1.5 小结
第一部分 推荐
第2章 推荐系统
2.1 推荐的定义
2.2 运行第一个推荐引擎
2.2.1 创建输入
2.2.2 创建一个推荐程序
2.2.3 分析输出
2.3 评估一个推荐程序
2.3.1 训练数据与评分
2.3.2 运行RecommenderEvaluator
2.3.3 评估结果
2.4 评估查准率与查全率
2.4.1 运行RecommenderIRStats-Evaluator
2.4.2 查准率和查全率的问题
2.5 评估GroupLens数据集
2.5.1 提取推荐程序的输入
2.5.2 体验其他推荐程序
2.6 小结
第3章 推荐数据的表示
3.1 偏好数据的表示
3.1.1 Preference对象
3.1.2 PreferenceArray及其实现
3.1.3 改善聚合的性能
3.1.4 FastByIDMap和FastIDSet
3.2 内存级DataModel
3.2.1 GenericDataModel
3.2.2 基于文件的数据
3.2.3 可刷新组件
3.2.4 更新文件
3.2.5 基于数据库的数据
3.2.6 JDBC和MySQL
3.2.7 通过JNDI进行配置
3.2.8 利用程序进行配置
3.3 无偏好值的处理
3.3.1 何时忽略值
3.3.2 无偏好值时的内存级表示
3.3.3 选择兼容的实现
3.4 小结
第4章 进行推荐
4.1 理解基于用户的推荐
4.1.1 推荐何时会出错
4.1.2 推荐何时是正确的
4.2 探索基于用户的推荐程序
4.2.1 算法
4.2.2 基于GenericUserBased-Recommender实现算法
4.2.3 尝试GroupLens数据集
4.2.4 探究用户邻域
4.2.5 固定大小的邻域
4.2.6 基于阈值的邻域
4.3 探索相似性度量
4.3.1 基于皮尔逊相关系数的相似度
4.3.2 皮尔逊相关系数存在的问题
4.3.3 引入权重
4.3.4 基于欧氏距离定义相似度
4.3.5 采用余弦相似性度量
4.3.6 采用斯皮尔曼相关系数基于相对排名定义相似度
4.3.7 忽略偏好值基于谷本系数计算相似度
4.3.8 基于对数似然比更好地计算相似度
4.3.9 推测偏好值
4.4 基于物品的推荐
4.4.1 算法
4.4.2 探究基于物品的推荐程序
4.5 Slope-one推荐算法
4.5.1 算法
4.5.2 Slope-one实践
4.5.3 Diffstorage和内存考虑
4.5.4 离线计算量的分配
4.6 最新以及试验性质的推荐算法
4.6.1 基于奇异值分解的推荐算法
4.6.2 基于线性插值物品的推荐算法
4
显示全部