文档详情

Python爬虫大数据采集与挖掘-微课视频版-课件 第二版-3 Web应用架构与协议.ppt

发布:2025-04-17约3.57千字共46页下载文档
文本预览下载声明

请求报文methodrequest-URLversionheaders?entity-body请求体通过“param1=value1param2=value2”的键值对形式,将要传递的请求参数(通常是一个页面表单中的组件值)编码成一个格式化串。GET/example.html?name=Jackpassword=1234HTTP/1.0User-Agent:Mozilla/5.0(WindowsNT10.0;WOW64)Accept:text/html?响应报文与请求报文类似,HTTP响应报文由起始行、头部(headers)以及实体(entity-body)构成。HTTP/1.0或HTTP/1.1规定的响应报文格式如下。?versionstatusreason-phraseheaders?entity-body报文的entity-body部分是响应体,响应体是HTTP要传输的内容。根据响应信息的不同,响应体可以为多种类型的数字数据,比如图片、视频、CSS、JS、HTML页面或者应用程序等。**Python爬虫大数据采集与挖掘(3)

--Web应用架构与协议《Python爬虫大数据采集与挖掘》第二版.微课视频版(清华大学出版社,2025)教材《Python爬虫大数据采集与挖掘》及配套公众号

(当当、京东可购书)提纲常用的Web服务器软件Web服务器的应用架构Robots协议HTTP协议状态保持技术常见的Web服务器软件有Apache、IIS(InternetInformationServer)、Nginx、Lighttpd、Zeus、Resin、tomcat等。Python自带Web启动、运行/zh-cn/3/library/http.server.html提纲常用的Web服务器软件Web服务器的应用架构Robots协议HTTP协议状态保持技术基于Web的互联网应用都离不开Web服务器,在门户网站、网络论坛、电子商务网站等典型应用中,核心部件都是Web服务器。Web应用架构支持不同规模、不同访问能力的部署四种典型的应用架构Client/ServerClient/Server/DatabaseWeb服务器集群虚拟主机架构Client/Server架构客户端可以是各种浏览器,也可以是爬虫程序。Client/Server/Database在网络爬虫技术中,这种架构支持了动态网页的实现。Web服务器集群针对大量用户并发访问的应用虚拟主机架构虚拟主机是另一种常见的Web应用架构,它是指在一台服务器里配置多个网站,使得每个网站看起来具有独立的物理计算机。虚拟主机的实现方法有三种:(1)基于IP地址的方法:在服务器里绑定多个IP,配置WEB服务器,把网站绑定在不同的IP上。当客户端或爬虫访问不同的IP地址时,就得到不同的网站的响应。(2)基于端口的方法:不同网站共享一个IP地址,但是通过不同的端口实现对不同网站的访问。这时,客户端访问的URL的形式是http://hostname:port/,需要指定端口。(3)基于主机名的方法:设置DNS将多个域名解析到同一个IP地址上,IP地址对应的服务器上配置WEB服务端,添加多个网站,为每个网站设定一个主机名。Web页面类型根据Web页面组成结构中的信息内容的生成方式不同,可以将Web页面分为静态页面、动态页面、以及伪静态页面三大类。动态型页面一般需要数据库等其他计算、存储服务的支持静态页面以html文件的形式存在于Web服务器的硬盘上伪静态页面是以静态页面展现出来,但实际上是用动态脚本来处理的。页面文件的组织方式大量的Web页面文件在Web服务器中的组织管理方式对于提升页面的可维护性是非常重要的。/2025/0226/c31a144286/page.htm虚拟根目录子目录文件名Html中的超链接(1)pimgSRC=images/p1.gifahref=a2.htmla2/a/p采用相对链接,访问a2.html。(2)pimgSRC=images/p2.gifahref=..\bbb\b1.htmlb1/a/p采用相对链接,访问b1.html,..表示上级目录,此处即为虚拟根目录。(3)pimgSRC=images/p3.gifahref=:8080\bbb\b1.htmlb1/a/p采用http开始的完整URL绝对链接,访问b

显示全部
相似文档