Python数据分析基础与应用电子活页5-6使用duplicated()函数进行重复值判断.docx
Python数据分析基础与应用
模块
PAGE2
PAGE3
电子活页5-6使用duplicated()函数进行重复值判断
【技能训练5-8】使用duplicated()函数进行重复值判断
【训练要求】
在JupyterNotebook开发环境中创建j5-08.ipynb,然后编写代码使用duplicated()函数进行重复值判断。
【实施过程】
(1)创建包含重复值的DataFrame对象
代码如下:
importpandasaspd
data1={name:[安静,路远,温暖,安静,阳光,安静],
sex:[女,男,男,女,男,女],
age:[21,20,19,21,23,21],
height:[171,180,189,171,175,171]}
df1=pd.DataFrame(data1)
df1
输出结果:
(2)使用从前向后的默认查找方式进行重复值判断
代码如下:
#返回布尔型数据,用于判断重复值的位置
df1.duplicated()
输出结果:
0False
1False
2False
3True
4False
5True
dtype:bool
从上述输出结果可以看出,索引为3、5的记录对应判断结果为True,表明这两条记录是重复的,即第2次和第3次出现的重复数据被判定为重复值,第1次出现的重复数据没有被判定为重复值。
(3)使用从后向前的查找方式进行重复值判断
代码如下:
df1.duplicated(keep=last)
输出结果:
0True
1False
2False
3True
4False
5False
dtype:bool
从上述输出结果可以看出,索引为0、3的记录对应判断结果为True,表明这两条记录是重复的,即第1次和第2次出现的重复数据被判定为重复值,第3次出现的重复数据没有被判定为重复值。
(4)将所有相同的记录都判定为重复值
代码如下:
df1.duplicated(keep=False)
输出结果:
0True
1False
2False
3True
4False
5True
dtype:bool
从上述输出结果可以看出,索引为0、3、5的记录对应判断结果为True,表明这3条记录是重复的。
(5)检查有多少个重复值
代码如下:
df1.duplicated().sum()#有2个重复值
输出结果:
2
(6)输出重复值
代码如下:
df1[df1.duplicated()]
输出结果:
输出重复值的代码也可以写成以下形式:
df1[df1.duplicated()==True]
(7)输出非重复值
代码如下:
df1[df1.duplicated()==False]
输出结果: