Python数据分析基础教程(微课版)(第2版)课件 郑丹青 第7--10章 pandas数据分析基础---电影数据分析项目.pptx
;1;pandas最初是由韦斯·麦金尼(WesMcKinney)于2008年开发,并于2009年实现开源。目前,pandas由专注于Python数据包开发的PyData团队进行日常的开发和维护工作。
pandas是以NumPy为基础进行设计的,因此pandas不仅能与其他大多数库兼容,还能借力NumPy强大的计算能力。因此,在数据分析中pandas和NumPy这两个库经常一起使用。另外,为了数据分析的需要,pandas既不使用Python已有的内置数据结构,也不使用其他库的数据结构,而是专门设计了两种新型的数据结构,即Series和DataFrame。使用这两种数据结构管理与SQL关系数据库和Excel工作表具有类似特征的数据会非常方便。由于pandas最初是作为金融数据分析工具而开发出来的,因此,pandas为时间序列分析提供了很好的支持。;根据开发pandas时提出的需求,pandas的基本特点如下。
①有按轴自动显式数据对齐的数据结构,这可以防止因许多数据未对齐以及来自不同数据源(索引方式不同)的数据而导致的常见错误。
②能集成时间序列数据。
③既能处理时间序列数据,也能处理非时间序列数据。
④数学运算和的简约(比如对某个轴求和)可以根据不同的元数据(轴编号)执行。
⑤能灵活处理缺失数据。
⑥能合并其他出现在常见数据库(例如基于SQL)中的关系运算。;1、测试Python环境中是否安装了pandas
当Python安装完成后,在Windows操作系统下,按【Windows】+【R】键,打开“运行”对话框,在打开栏中输入python,按【Enter】键,进入Python交互式终端。在Python命令提示符后中输入frompandasimport*导入pandas模块,如果在交互式终端中出现ModuleNotFoundError:Nomodulenamedpandas的错误提示,则需要安装pandas,否则表明已安装了pandas。
在Windows操作系统下安装pandas方法(自主学习)
PyCharm安装pandas方法(自主学习)
pandas的导入方法:importpandasaspd或者frompandasimport*
;pandas的核心是Series和DataFrame两大数据结构,其中,Series数据结构是用于存储一个序列的一维数组,而DataFrame数据结构则是用于存储复杂数据的二维数据结构。
Series是一种类似于一维数组的对象,它是由一组数据,这组数据可以是Numpy中任意类型的数据,以及一组与之相关的数据标签组成。
Series对象的内部结构是由两个相互关联的数组组成,其中用于存放数据(即值)的是value主数组,主数组的每个元素都有一个与之相关联的标签(即索引),这些标签存储在另外一个叫做Index的数组中。
;Series的表现形式为:索引在左边,值在右边。例如,Series对象[2,4,-3,7]的内部结构如图7-2所示。;7.2.1Series对象及常用操作;7.2.1Series对象及常用操作;7.2.1Series对象及常用操作;7.2.1Series对象及常用操作;7.2.1Series对象及常用操作;7.2.1Series对象及常用操作;7.2.1Series对象及常用操作;7.2.2DataFrame对象及常用操作;7.2.2DataFrame对象及常用操作;7.2.2DataFrame对象及常用操作;7.2.2DataFrame对象及常用操作;7.2.2DataFrame对象及常用操作;7.2.2DataFrame对象及常用操作;7.2.2DataFrame对象及常用操作;7.2.2DataFrame对象及常用操作;7.2.2DataFrame对象及常用操作;7.2.2DataFrame对象及常用操作;7.2.2DataFrame对象及常用操作;7.2.2DataFrame对象及常用操作;7.2.2DataFrame对象及常用操作;7.2.2DataFrame对象及常用操作;7.3.1Index对象
;7.3.2Index对象的属性和方法
;7.3.2Index对象的属性和方法
;7.3.2Index对象的属性和方法
;7.3.2Ind