Pandas中文官方文档之基础用法1.pdf
本节介绍pandas数据结构的基础用法。下列代码创建示例数据对象:
In[1]:index=pd.date_range(1/1/2000,periods=8)
In[2]:s=pd.Series(np.random.randn(5),index=[a,b,c,
d,e])
In[3]:df=pd.DataFrame(np.random.randn(8,3),index=index,
...:columns=[A,B,C])
...:
Head与Tail
head()与tail()用于快速预览Series与DataFrame,默认显示5
条数据,也可以指定要显示的数量。
In[4]:long_series=pd.Series(np.random.randn(1000))
In[5]:long_series.head()
Out[5]:
0-1.157892
1-1.344312
20.844885
31.075770
4-0.109050
dtype:float64
In[6]:long_series.tail(3)
Out[6]:
997-0.289388
998-1.020544
9990.589993
dtype:float64
属性与底层数据
Pandas可以通过多个属性访问元数据:
•shape:
▪输出对象的轴维度,与ndarray一致
•轴标签
▪Series:Index(仅有此轴)
▪DataFrame:Index(行)与列
注意:为属性赋值是安全的!
In[7]:df[:2]
Out[7]:
ABC
2000-01-01-0.1732150.119209-1.044236
2000-01-02-0.861849-2.104569-0.494929
In[8]:df.columns=[x.lower()forxindf.columns]
In[9]:df
Out[9]:
abc
2000-01-01-0.1732150.119209-1.044236
2000-01-02-0.861849-2.104569-0.494929
2000-01-031.0718040.721555-0.706771
2000-01-04-1.0395750.271860-0.424972
2000-01-050.5670200.276232-1.087401
2000-01-06-0.6736900.113648-1.478427
2000-01-070.5249880.4047050.577046
2000-01-08-1.715002-1.039268-0.370647
Pandas对象(Index,Series,DataFrame)相当于数组的容器,用
于存储数据,并执行计算。大部分类型的底层数组都
是numpy.ndarray。不过,pandas与第三方支持库一般都会扩展Numpy
类型系统,添加自定义数组(见数据类型)。
获取Index或Series里的数据,请用.array属性。
In[10]:s.array
Out[10]:
PandasArray
[0.4691122999071863,-0.2828633443286633,-1.5090585031735124,
-1.1356323710171934,