网络爬虫技术教程.doc
网络爬虫技术教程
TOC\o1-2\h\u30876第1章网络爬虫基础 3
210921.1网络爬虫概述 3
118301.2爬虫的基本原理 3
239211.3爬虫的应用场景 4
197361.4法律法规与道德规范 4
30156第2章网络爬虫技术框架 4
14492.1爬虫技术架构 4
95582.1.1数据采集 5
207252.1.2数据处理 5
12362.1.3数据存储 5
2372.1.4数据监控 5
209162.2常用爬虫库与工具 5
111672.2.1Python爬虫库 6
99342.2.2JavaScript爬虫工具 6
44452.2.3分布式爬虫工具 6
62812.3爬虫的存储方式 6
237852.3.1关系型数据库 6
140252.3.2非关系型数据库 6
220422.3.3文件系统 6
193342.3.4云存储服务 6
88582.4爬虫功能评估 7
89682.4.1采集效率 7
198862.4.2稳定性 7
212752.4.3可扩展性 7
223122.4.4适应性 7
247552.4.5可维护性 7
19183第3章HTTP协议与请求处理 7
245333.1HTTP协议基础 7
117153.1.1HTTP协议版本 7
183793.1.2URL与URI 8
125823.1.3请求与响应结构 8
178973.2请求方法与状态码 8
285653.2.1请求方法 8
274913.2.2状态码 8
152173.3编码与解码 9
140973.3.1内容编码 9
77533.3.2字符编码 9
169103.4代理与反爬虫策略 9
213503.4.1代理 9
201183.4.2反爬虫策略 10
8138第4章数据提取与解析 10
129484.1HTML与XML解析 10
150974.1.1HTML解析 10
91344.1.2XML解析 10
223494.2JSON解析 11
227614.2.1JSON解析库 11
34884.3正则表达式 11
220254.3.1正则表达式基础 11
203694.3.2正则表达式应用 11
59834.4数据清洗与转换 12
23733第5章动态网页爬取 12
185995.1JavaScript渲染页面爬取 12
231415.1.1JavaScript渲染页面的原理 12
184585.1.2JavaScript渲染页面爬取方法 12
274195.2Selenium的使用 12
324925.2.1Selenium安装与配置 13
187965.2.2Selenium基本操作 13
89005.3PhantomJS与CasperJS 13
194925.3.1PhantomJS的安装与使用 13
204705.3.2CasperJS的安装与使用 13
92455.4动态数据抓取实践 13
108835.4.1抓取目标网站 13
270585.4.2编写爬虫代码 13
256465.4.3运行爬虫并保存数据 13
32525第6章爬虫的并发与分布式 13
143766.1并发爬虫原理 13
137256.2多线程与多进程 14
125736.2.1多线程 14
226416.2.2多进程 14
298666.3分布式爬虫架构 14
26456.3.1分布式爬虫的组成 14
264986.3.2分布式爬虫的关键技术 14
76466.4分布式存储与调度 14
224826.4.1分布式存储 14
324576.4.2分布式调度 15
1953第7章深度学习与爬虫应用 15
162127.1深度学习概述 15
325677.2机器学习在爬虫中的应用 15
126797.3图像识别与爬虫 15
40617.4自然语言处理与爬虫 16
29563第8章爬虫实战项目一:搜索引擎爬虫 16
290378.1搜索引擎爬虫原理 16
202608.1.1工作流程 16