大数据技术与应用操作手册.doc
大数据技术与应用操作手册
TOC\o1-2\h\u5824第一章数据采集与预处理 4
115761.1数据采集方法 4
155571.1.1网络爬虫 4
225791.1.2数据接口 4
78991.1.3物联网技术 4
231591.2数据清洗与转换 5
106461.2.1数据去重 5
256821.2.2数据补全 5
291911.2.3数据转换 5
11421第二章数据存储与管理 5
146962.1数据存储技术 5
261932.1.1硬盘存储 5
27992.1.2网络存储 6
275112.1.3分布式存储 6
116192.1.4内存存储 6
43562.2数据库管理 6
118162.2.1关系型数据库 6
292092.2.2非关系型数据库 6
148112.2.3数据仓库 6
140162.2.4数据库优化 6
222092.3分布式存储 7
146262.3.1分布式文件系统 7
305952.3.2分布式数据库 7
178572.3.3分布式缓存 7
207632.3.4分布式存储解决方案 7
22082第三章数据分析与挖掘 7
299173.1数据摸索性分析 7
255453.1.1数据清洗 7
307143.1.2数据可视化 7
53693.1.3数据描述性统计分析 7
317333.1.4数据相关性分析 8
279143.2数据挖掘算法 8
183973.2.1决策树算法 8
32333.2.2支持向量机算法 8
246553.2.3人工神经网络算法 8
231103.2.4Kmeans聚类算法 8
154993.3模型评估与优化 8
224463.3.1交叉验证 8
269103.3.2超参数调整 9
210453.3.3特征选择与特征降维 9
115033.3.4模型融合 9
20533第四章数据可视化 9
111904.1数据可视化工具 9
271754.2可视化设计原则 9
64374.3交互式可视化 10
30123第五章机器学习与深度学习 10
272045.1机器学习基础 10
230185.1.1概述 10
78935.1.2基本概念 10
245605.1.3常见算法 11
191335.2深度学习框架 11
99665.2.1概述 11
19845.2.2TensorFlow 11
254835.2.3PyTorch 11
312525.2.4Keras 11
27275.3模型训练与部署 11
98805.3.1模型训练 11
192565.3.2模型评估 11
40165.3.3模型部署 12
61955.3.4持续优化 12
30229第六章大数据计算框架 12
191046.1Hadoop计算框架 12
176936.1.1概述 12
259176.1.2HDFS 12
118456.1.3MapReduce 12
36876.1.4Hadoop生态系统 12
220186.2Spark计算框架 12
148816.2.1概述 13
174446.2.2Spark核心组件 13
34356.2.3Spark运行原理 13
72516.3分布式计算优化 13
34086.3.1数据本地性优化 13
19006.3.2任务调度优化 13
325876.3.3内存管理优化 13
155596.3.4网络传输优化 13
199596.3.5容错机制优化 13
21166第七章云计算与大数据 14
72077.1云计算基础 14
306057.1.1云计算概念 14
168597.1.2云计算架构 14
4187.1.3云计算关键技术 14
24717.2云服务平台 14
289877.2.1云服务平台概述 14
313677.2.2云服务平台分类 15
86367.2.3云服务平台关键技术 15
64637.3大数据在云计算中的应用 15
20557.3.1数据存储与分析 15
96