Python金融数据分析与应用课件 第3章 金融数据获取及预处理.pptx
公众号:陈西设计之家。微信搜索即可。更多免费原创PPT模板以及教程设计作品源文件可以在公众号内无条件获取。金融数据获取及预处理Python金融数据分析与应用(微课版)第三章
公众号:陈西设计之家。微信搜索即可。更多免费原创PPT模板以及教程设计作品源文件可以在公众号内无条件获取。目录CONTENTS金融数据获取3.1数据清洗3.2数据变换3.3
公众号:陈西设计之家。微信搜索即可。更多免费原创PPT模板以及教程设计作品源文件可以在公众号内无条件获取。3.1金融数据获取
公众号:陈西设计之家。微信搜索即可。更多免费原创PPT模板以及教程设计作品源文件可以在公众号内无条件获取。3.1金融数据获取3.1.1第三方数据接口AKShare数据接口AKShare是一个基于Python的金融数据接口,数据来源包括东方财富网、新浪财经、同花顺财经等,可高效获取股票、期货、债券等金融数据,如股票价格、技术指标、基本面数据等。BaoStock数据接口BaoStock用于获取中国股市数据,数据来源包括雪球、东方财富网等。与AKShare相比,BaoStock在获取实时数据方面有优势,但数据接口较少。数据接口对比接口库AKShareBaoStock数据范围提供股票、基金、期货等多领域数据,覆盖面较广泛提供大量证券历史K线数据、上市公司财务数据等接口易用性接口较稳定,响应速度较快,提供详细的文档和示例接口简单易用,部分功能需要安装依赖库才能使用更新更新较为频繁,维护较好,但部分数据更新速度较慢更新及时,根据市场需求进行功能优化和扩展
公众号:陈西设计之家。微信搜索即可。更多免费原创PPT模板以及教程设计作品源文件可以在公众号内无条件获取。3.1.2网络爬虫网络爬虫又称为网页蜘蛛、网络机器人,是一种按照一定的规则,自动请求互联网上的网页,并提取网络数据的程序或者脚本。网络爬虫从功能上来讲,一般分为数据采集、网页解析和数据存储这3个部分。爬虫流程3.1金融数据获取①初始URL:从一个或若干初始网页的URL(UniformResourceLocator,统一资源定位符)开始。这些初始URL通常来自已知的种子URL或其他爬虫策略。②数据采集:爬虫通过HTTP(HypertextTransferProtocol,超文本传送协议)请求获取初始网页的内容。③网页解析:爬虫将获取到的网页内容进行解析,提取出感兴趣的信息以及新的URL。④数据存储:将处理后的数据存储到本地或远程数据库中,以便后续的查询和检索。重复以上过程:爬虫会不断地执行数据采集、网页解析、数据存储等步骤,直到满足系统的停止条件。基本流程
公众号:陈西设计之家。微信搜索即可。更多免费原创PPT模板以及教程设计作品源文件可以在公众号内无条件获取。3.1.2网络爬虫pd.read_html()是pandas库中的一个函数,可用于解析网页中的表格数据,并将它们转换为pandas的数据框。该函数会自动解析HTML文件中的表格,将其转换成pandas的DataFrame,并返回一个包含DataFrame的列表。如果HTML文件中包含多个表格,那么返回结果就是一个列表,列表中的每个元素是一个DataFrame。表格数据爬取3.1金融数据获取参数说明io必选参数,可以是一个HTML字符串、文件对象、URL或文件路径match可选,字符串,用于指定HTML标签匹配模式。默认值为table,表示查找所有的表格标签header可选,整型,表示表格中的表头行索引。默认值为0index_col可选,整型,表示要作为索引的列索引。默认值为0encoding可选,表示HTML内容的编码格式。默认值为None,表示自动检测pd.read_html()参数说明
金融表格数据爬取应用举例3.1金融数据获取3.1.2网络爬虫以中商情报网的A股上市企业股票数据为例,展示如何利用pd.read_html()爬取数据。Python演示步骤1获取不同网页的URL。单击A股上市企业股票页面中的“下一页”,观察不同网页URL的变化。步骤2分页爬取并存储。以爬取1~50页股票数据为例,首先通过循环分页爬取股票数据,然后通过pd.concat()进行数据合并,并保存为本地文件“A股上市企业股票数据.xlsx”。输出该文件的形状。
公众号:陈西设计之家。微信搜索即可。更多免费原创PPT模板以及教程设计作品源文件可以在公众号内无条件获取。3.2数据清洗
3.2数据清洗缺失值处理重复值处理异常值处理数据清洗是对数据进行处理,以提高数据质量和可用性。数据清洗在数据分析、挖掘、可视化以及统计报表等环节之前进行,以确保后续工作是基于高质量的数据进行的。在数据清洗前应先观察数据中存在的问题,然后有针对性地进行清洗。