Python pandas.DataFrame.duplicated函数方法的使用-CJavaPy

DataFrame.duplicated(self，subset = None，keep ='first')

返回表示重复行的布尔Series，可以选择仅考虑某些列。

参数：

subse ：列标签或标签序列，可选

仅考虑某些列来标识重复项，默认情况下使用所有列

keep ： {'first'，'last'，False}，默认为'first'

first：将重复项标记True为第一次出现的除外。

last：将重复项标记True为最后一次除外。

False：将所有重复项标记为True。

Series

例子

import numpy as np  
import pandas as pd

标记DataFrame重复

df = pd.DataFrame({’col1’: [‘one’, ‘one’, ‘two’, ‘two’, ‘two’, ‘three’, ‘four’], ‘col2’: [1, 2, 1, 2, 1, 1, 1],  
                   ’col3’:[‘AA’,‘BB’,‘CC’,‘DD’,‘EE’,‘FF’,‘GG’]},index=[‘a’, ‘a’, ‘b’, ‘c’, ‘b’, ‘a’,‘c’])  
df.duplicated()#默认所有列，无重复记录  
df.duplicated(’col1’)#第二、四、五行被标记为重复  
df.duplicated([’col1’,‘col2’])#第五行被标记为重复  
#keep=’last’  
df.duplicated(’col1’,‘last’)#第一、三、四行被标记重复  
df.duplicated([’col1’,‘col2’],keep=‘last’)#第三行被标记为重复  
#keep=False  
df.duplicated(’col1’,False)#Series([True,True,True,True,True,False,False],index=[‘a’,’a’,’b’,’c’,’b’,’a’,’c’])  
df.duplicated([’col1’,‘col2’],keep=False)#在col1和col2列上出现相同的，都被标记为重复  
type(df.duplicated([’col1’,‘col2’],keep=False))#pandas.core.series.Series  
#根据索引标记  
df.index.duplicated()#默认keep=’first’,第二、五、七行被标记为重复  
df.index.duplicated(keep=’last’)#第一、二、三、四被标记为重复  
df[df.index.duplicated()]#获取重复记录行  
df[~df.index.duplicated(’last’)]#获取不重复记录行

标记Series重复例子

#duplicated(self, keep=’first’)  
s = pd.Series([’one’, ‘one’, ‘two’, ‘two’, ‘two’, ‘three’, ‘four’] ,index= [‘a’, ‘a’, ‘b’, ‘c’, ‘b’, ‘a’,‘c’],name=‘sname’)  
s.duplicated()  
s.duplicated(’last’)  
s.duplicated(False)  
#根据索引标记  
s.index.duplicated()  
s.index.duplicated(’last’)  
s.index.duplicated(False)

Python pandas.DataFrame.duplicated函数方法的使用

推荐文档

微信小程序

抖音小程序

相关文档

大家感兴趣的内容

随机列表