Python数据分析基础与应用电子活页5-5清洗超出范围的错误数据.docx
Python数据分析基础与应用
模块
PAGE2
PAGE21
电子活页5-5清洗超出范围的错误数据
【技能训练5-7】清洗超出范围的错误数据
【训练要求】
在JupyterNotebook开发环境中创建j5-07.ipynb,然后编写代码清洗超出范围的错误数据。
【实施过程】
(1)替换指定的错误数据
代码如下:
importpandasaspd
data2={name:[安静,路远,温暖,向北],
sex:[女,男,田,女],
age:[21,200,19,22],
score:[71,80,89,192]}
df2=pd.DataFrame(data2)
#修改数据
df2.loc[1,age]=20
df2.loc[2,sex]=男
df2.loc[3,score]=92
df2
输出结果:
(2)批量替换符合条件的错误数据
代码如下:
importpandasaspd
data3={name:[安静,路远,温暖,向北],
sex:[女,男,男,女],
age:[21,200,19,22],
score:[71,80,189,192]}
df3=pd.DataFrame(data3)
#修改数据
foritemindf3.index:
ifdf3.loc[item,age]60:
df3.loc[item,age]=20
foritemindf3.index:
ifdf3.loc[item,score]100:
df3.loc[item,score]=df3.loc[item,score]-100
df3
输出结果:
(3)删除错误数据所在行
代码如下:
importpandasaspd
data4={name:[安静,路远,温暖,向北],
sex:[女,男,男,女],
age:[21,200,19,22],
score:[71,80,189,192]}
df4=pd.DataFrame(data4)
#修改数据
foritemindf4.index:
ifdf4.loc[item,age]60:
df4.drop(item,inplace=True)
foritemindf4.index:
ifdf4.loc[item,score]100:
df4.drop(item,inplace=True)
df4
输出结果: