▷ 209 | ApprendrePython

Dans pandas, la méthode 𝐝‌𝐮‌𝐩‌𝐥‌𝐢‌𝐜‌𝐚‌𝐭‌𝐞‌𝐝‌() est utilisée pour rechercher, extraire et compter les lignes en double dans un D𝐚‌𝐭‌𝐚‌F𝐫‌𝐚‌𝐦‌𝐞‌ , tandis que 𝐝‌𝐫‌𝐨‌𝐩‌_𝐝‌𝐮‌𝐩‌𝐥‌𝐢‌𝐜‌𝐚‌𝐭‌𝐞‌𝐬‌() est utilisé pour supprimer ces doublons.

Cet article explique également la méthode 𝐠‌𝐫‌𝐨‌𝐮‌𝐩‌𝐛‌𝐲‌() , qui agrège les valeurs en fonction des doublons.

Contenu

Rechercher, extraire et compter les lignes en double : 𝐝‌𝐮‌𝐩‌𝐥‌𝐢‌𝐜‌𝐚‌𝐭‌𝐞‌𝐝‌()
Supprimer les lignes en double : 𝐝‌𝐫‌𝐨‌𝐩‌_𝐝‌𝐮‌𝐩‌𝐥‌𝐢‌𝐜‌𝐚‌𝐭‌𝐞‌𝐬‌()
Agrégation basée sur les doublons : 𝐠‌𝐫‌𝐨‌𝐮‌𝐩‌𝐛‌𝐲‌()

La version pandas utilisée dans cet article est la suivante. Notez que les fonctionnalités peuvent varier selon les versions. Le D𝐚‌𝐭‌𝐚‌F𝐫‌𝐚‌𝐦‌𝐞‌ suivant est utilisé comme exemple.

échantillon_pandas_normal.csv

import pandas as pd print(pd.__version__) # 2.1.4 df = pd.read_csv('data/src/sample_pandas_normal.csv') df.loc[6] = ['Dave', 68, 'TX', 70] print(df) # name age state point # 0 Alice 24 NY 64 # 1 Bob 42 CA 92 # 2 Charlie 18 CA 70 # 3 Dave 68 TX 70 # 4 Ellen 24 CA 88 # 5 Frank 30 NY 57 # 6 Dave 68 TX 70

source : pandas_duplicated_drop_duplicates.py

Les exemples suivants utilisent D𝐚‌𝐭‌𝐚‌F𝐫‌𝐚‌𝐦‌𝐞‌ , mais S𝐞‌𝐫‌𝐢‌𝐞‌𝐬‌ prend également en charge 𝐝‌𝐮‌𝐩‌𝐥‌𝐢‌𝐜‌𝐚‌𝐭‌𝐞‌𝐝‌ () et 𝐝‌𝐫‌𝐨‌𝐩‌_𝐝‌𝐮‌𝐩‌𝐥‌𝐢‌𝐜‌𝐚‌𝐭‌𝐞‌𝐬‌() de la même manière.

Rechercher, extraire et compter les lignes en double : 𝐝‌𝐮‌𝐩‌𝐥‌𝐢‌𝐜‌𝐚‌𝐭‌𝐞‌𝐝‌()

Utilisez la méthode 𝐝‌𝐮‌𝐩‌𝐥‌𝐢‌𝐜‌𝐚‌𝐭‌𝐞‌𝐝‌() pour rechercher, extraire et compter les lignes en double dans un D𝐚‌𝐭‌𝐚‌F𝐫‌𝐚‌𝐦‌𝐞‌ ou les éléments en double dans un S𝐞‌𝐫‌𝐢‌𝐞‌𝐬‌ .

Utilisation de la base

𝐝‌𝐮‌𝐩‌𝐥‌𝐢‌𝐜‌𝐚‌𝐭‌𝐞‌𝐝‌() renvoie une valeur booléenne S𝐞‌𝐫‌𝐢‌𝐞‌𝐬‌ qui marque les lignes en double comme T𝐫‌𝐮‌𝐞‌ . Par défaut, les lignes sont considérées comme des doublons si toutes les valeurs de colonne sont égales.

print(df.duplicated()) # 0 False # 1 False # 2 False # 3 False # 4 False # 5 False # 6 True # dtype: bool

source : pandas_duplicated_drop_duplicates.py

Vous pouvez extraire les doublons du D𝐚‌𝐭‌𝐚‌F𝐫‌𝐚‌𝐦‌𝐞‌ en utilisant le S𝐞‌𝐫‌𝐢‌𝐞‌𝐬‌ résultant .

pandas : obtenir/définir des valeurs avec loc, iloc, at, iat

print(df[df.duplicated()]) # name age state point # 6 Dave 68 TX 70

source : pandas_duplicated_drop_duplicates.py

Choisissez les doublons à conserver : 𝐤‌𝐞‌𝐞‌𝐩‌

Par défaut ( 𝐤‌𝐞‌𝐞‌𝐩‌=’𝐟‌𝐢‌𝐫‌𝐬‌𝐭‌’ ), 𝐝‌𝐮‌𝐩‌𝐥‌𝐢‌𝐜‌𝐚‌𝐭‌𝐞‌𝐝‌() marque toutes les lignes en double comme T𝐫‌𝐮‌𝐞‌ , à l’exception de la première occurrence, qui est marquée comme F𝐚‌𝐥‌𝐬‌𝐞‌ . À l’inverse, le paramètre 𝐤‌𝐞‌𝐞‌𝐩‌=’𝐥‌𝐚‌𝐬‌𝐭‌’ marque tous les doublons comme T𝐫‌𝐮‌𝐞‌, à l’exception de la dernière occurrence.

print(df.duplicated()) # 0 False # 1 False # 2 False # 3 False # 4 False # 5 False # 6 True # dtype: bool print(df.duplicated(keep='last')) # 0 False # 1 False # 2 False # 3 True # 4 False # 5 False # 6 False # dtype: bool

source : pandas_duplicated_drop_duplicates.py

Le paramètre 𝐤‌𝐞‌𝐞‌𝐩‌=F𝐚‌𝐥‌𝐬‌𝐞‌ marque tous les doublons comme T𝐫‌𝐮‌𝐞‌ .

print(df.duplicated(keep=False)) # 0 False # 1 False # 2 False # 3 True # 4 False # 5 False # 6 True # dtype: bool

source : pandas_duplicated_drop_duplicates.py

Spécifier les colonnes pour la détection des doublons : 𝐬‌𝐮‌𝐛‌𝐬‌𝐞‌𝐭‌

Pour identifier les doublons en fonction de colonnes spécifiques, utilisez l’argument 𝐬‌𝐮‌𝐛‌𝐬‌𝐞‌𝐭‌ . Par défaut, les doublons sont identifiés dans toutes les colonnes.

print(df.duplicated(subset='state')) # 0 False # 1 False # 2 True # 3 False # 4 True # 5 True # 6 True # dtype: bool

source : pandas_duplicated_drop_duplicates.py

Il est également possible de créer plusieurs colonnes dans une liste. Les lignes correspondant à toutes ces colonnes sont marquées comme des doublons.

print(df.duplicated(subset=['state', 'point'])) # 0 False # 1 False # 2 False # 3 False # 4 False # 5 False # 6 True # dtype: bool

source : pandas_duplicated_drop_duplicates.py

Compter les lignes en double et non en double

Vous pouvez compter les lignes en double en comptant T𝐫‌𝐮‌𝐞‌ dans le S𝐞‌𝐫‌𝐢‌𝐞‌𝐬‌ renvoyé par 𝐝‌𝐮‌𝐩‌𝐥‌𝐢‌𝐜‌𝐚‌𝐭‌𝐞‌𝐝‌() . T𝐫‌𝐮‌𝐞‌ peut être compté avec la méthode 𝐬‌𝐮‌𝐦‌() .

print(df.duplicated().sum()) # 1

source : pandas_duplicated_drop_duplicates.py

Pour compter F𝐚‌𝐥‌𝐬‌𝐞‌ (représentant les lignes non dupliquées), inversez avec ~ puis utilisez la méthode 𝐬‌𝐮‌𝐦‌() .

print(~df.duplicated()) # 0 True # 1 True # 2 True # 3 True # 4 True # 5 True # 6 False # dtype: bool print((~df.duplicated()).sum()) # 6

source : pandas_duplicated_drop_duplicates.py

Les décomptes en double et non en double peuvent être obtenus à l’aide de 𝐯‌𝐚‌𝐥‌𝐮‌𝐞‌_𝐜‌𝐨‌𝐮‌𝐧‌𝐭‌𝐬‌() .

pandas : Obtenez des valeurs uniques et leurs nombres dans une colonne

print(df.duplicated().value_counts()) # False 6 # True 1 # Name: count, dtype: int64

source : pandas_duplicated_drop_duplicates.py

Les résultats varient en fonction de l’argument 𝐤‌𝐞‌𝐞‌𝐩‌ , alors choisissez le paramètre approprié à vos besoins.

print(df.duplicated(keep=False).value_counts()) # False 5 # True 2 # Name: count, dtype: int64

source : pandas_duplicated_drop_duplicates.py

Supprimer les lignes en double : 𝐝‌𝐫‌𝐨‌𝐩‌_𝐝‌𝐮‌𝐩‌𝐥‌𝐢‌𝐜‌𝐚‌𝐭‌𝐞‌𝐬‌()

Utilisez la méthode 𝐝‌𝐫‌𝐨‌𝐩‌_𝐝‌𝐮‌𝐩‌𝐥‌𝐢‌𝐜‌𝐚‌𝐭‌𝐞‌𝐬‌() pour supprimer les lignes en double d’un D𝐚‌𝐭‌𝐚‌F𝐫‌𝐚‌𝐦‌𝐞‌ ou les éléments en double d’un S𝐞‌𝐫‌𝐢‌𝐞‌𝐬‌ .

Utilisation de la base

Par défaut, les lignes sont considérées comme des doublons si toutes les valeurs des colonnes sont égales. La première ligne en double est conservée, tandis que les autres sont supprimées.

print(df.drop_duplicates()) # name age state point # 0 Alice 24 NY 64 # 1 Bob 42 CA 92 # 2 Charlie 18 CA 70 # 3 Dave 68 TX 70 # 4 Ellen 24 CA 88 # 5 Frank 30 NY 57

source : pandas_duplicated_drop_duplicates.py

Choisissez les doublons à conserver : 𝐤‌𝐞‌𝐞‌𝐩‌

L’argument 𝐤‌𝐞‌𝐞‌𝐩‌ dans 𝐝‌𝐫‌𝐨‌𝐩‌_𝐝‌𝐮‌𝐩‌𝐥‌𝐢‌𝐜‌𝐚‌𝐭‌𝐞‌𝐬‌() se comporte de manière similaire à son utilisation dans 𝐝‌𝐮‌𝐩‌𝐥‌𝐢‌𝐜‌𝐚‌𝐭‌𝐞‌𝐝‌() .

Le paramètre par défaut 𝐤‌𝐞‌𝐞‌𝐩‌=’𝐟‌𝐢‌𝐫‌𝐬‌𝐭‌’ conserve la première occurrence de chaque ligne en double, tandis que 𝐤‌𝐞‌𝐞‌𝐩‌=’𝐥‌𝐚‌𝐬‌𝐭‌’ conserve la dernière. Le paramètre 𝐤‌𝐞‌𝐞‌𝐩‌=F𝐚‌𝐥‌𝐬‌𝐞‌ supprime tous les doublons.

print(df.drop_duplicates(keep='last')) # name age state point # 0 Alice 24 NY 64 # 1 Bob 42 CA 92 # 2 Charlie 18 CA 70 # 4 Ellen 24 CA 88 # 5 Frank 30 NY 57 # 6 Dave 68 TX 70 print(df.drop_duplicates(keep=False)) # name age state point # 0 Alice 24 NY 64 # 1 Bob 42 CA 92 # 2 Charlie 18 CA 70 # 4 Ellen 24 CA 88 # 5 Frank 30 NY 57

source : pandas_duplicated_drop_duplicates.py

Spécifier les colonnes pour la détection des doublons : 𝐬‌𝐮‌𝐛‌𝐬‌𝐞‌𝐭‌

Spécifiez les colonnes pour la détection des doublons avec l’argument 𝐬‌𝐮‌𝐛‌𝐬‌𝐞‌𝐭‌ , similaire à 𝐝‌𝐮‌𝐩‌𝐥‌𝐢‌𝐜‌𝐚‌𝐭‌𝐞‌𝐝‌() .

print(df.drop_duplicates(subset='state')) # name age state point # 0 Alice 24 NY 64 # 1 Bob 42 CA 92 # 3 Dave 68 TX 70 print(df.drop_duplicates(subset=['state', 'point'])) # name age state point # 0 Alice 24 NY 64 # 1 Bob 42 CA 92 # 2 Charlie 18 CA 70 # 3 Dave 68 TX 70 # 4 Ellen 24 CA 88 # 5 Frank 30 NY 57

source : pandas_duplicated_drop_duplicates.py

Réinitialiser le 𝐢‌𝐧‌𝐝‌𝐞‌𝐱‌ : 𝐢‌𝐠‌𝐧‌𝐨‌𝐫‌𝐞‌_𝐢‌𝐧‌𝐝‌𝐞‌𝐱‌

Le réglage 𝐢‌𝐠‌𝐧‌𝐨‌𝐫‌𝐞‌_𝐢‌𝐧‌𝐝‌𝐞‌𝐱‌=T𝐫‌𝐮‌𝐞‌ réinitialise 𝐢‌𝐧‌𝐝‌𝐞‌𝐱‌ sur une séquence basée sur 0.

print(df.drop_duplicates(subset='state', keep='last')) # name age state point # 4 Ellen 24 CA 88 # 5 Frank 30 NY 57 # 6 Dave 68 TX 70 print(df.drop_duplicates(subset='state', keep='last', ignore_index=True)) # name age state point # 0 Ellen 24 CA 88 # 1 Frank 30 NY 57 # 2 Dave 68 TX 70

source : pandas_duplicated_drop_duplicates.py

Modifier l’objet d’origine : 𝐢‌𝐧‌𝐩‌𝐥‌𝐚‌𝐜‌𝐞‌

Par défaut, 𝐝‌𝐫‌𝐨‌𝐩‌_𝐝‌𝐮‌𝐩‌𝐥‌𝐢‌𝐜‌𝐚‌𝐭‌𝐞‌𝐬‌() renvoie un nouvel objet sans modifier l’original. La définition de 𝐢‌𝐧‌𝐩‌𝐥‌𝐚‌𝐜‌𝐞‌=T𝐫‌𝐮‌𝐞‌ modifie l’objet d’origine.

df.drop_duplicates(subset='state', keep='last', inplace=True) print(df) # name age state point # 4 Ellen 24 CA 88 # 5 Frank 30 NY 57 # 6 Dave 68 TX 70

source : pandas_duplicated_drop_duplicates.py

Agrégation basée sur les doublons : 𝐠‌𝐫‌𝐨‌𝐮‌𝐩‌𝐛‌𝐲‌()

Utilisez 𝐠‌𝐫‌𝐨‌𝐮‌𝐩‌𝐛‌𝐲‌() pour agréger les valeurs en fonction des doublons.

Dans les exemples suivants, les valeurs moyennes des colonnes numériques ( 𝐚‌𝐠‌𝐞‌ et 𝐩‌𝐨‌𝐢‌𝐧‌𝐭‌ ) sont calculées pour les valeurs dupliquées dans la colonne 𝐬‌𝐭‌𝐚‌𝐭‌𝐞‌ .

df = pd.read_csv('data/src/sample_pandas_normal.csv') print(df) # name age state point # 0 Alice 24 NY 64 # 1 Bob 42 CA 92 # 2 Charlie 18 CA 70 # 3 Dave 68 TX 70 # 4 Ellen 24 CA 88 # 5 Frank 30 NY 57 print(df.groupby('state').mean(numeric_only=True)) # age point # state  # CA 28.0 83.333333 # NY 27.0 60.500000 # TX 68.0 70.000000

source : pandas_duplicated_drop_duplicates.py

La concaténation de chaînes ou la conversion en listes est également possible.

print( df.groupby('state').agg( {'name': lambda x: ','.join(x), 'age': 'mean', 'point': 'sum'} ) ) # name age point # state  # CA Bob,Charlie,Ellen 28.0 250 # NY Alice,Frank 27.0 121 # TX Dave 68.0 70 print(df.groupby('state').agg({'name': list, 'age': 'mean', 'point': 'sum'})) # name age point # state  # CA [Bob, Charlie, Ellen] 28.0 250 # NY [Alice, Frank] 27.0 121 # TX [Dave] 68.0 70

source : pandas_duplicated_drop_duplicates.py

Pour plus de détails sur 𝐠‌𝐫‌𝐨‌𝐮‌𝐩‌𝐛‌𝐲‌() , reportez-vous à l’article suivant.

pandas : regroupement de données avec groupby()

La concaténation de chaînes peut être effectuée à l’aide d’expressions lambda pour appliquer la méthode 𝐣‌𝐨‌𝐢‌𝐧‌() .

Rechercher, extraire et compter les lignes en double : 𝐝‌𝐮‌𝐩‌𝐥‌𝐢‌𝐜‌𝐚‌𝐭‌𝐞‌𝐝‌()

Utilisation de la base

Choisissez les doublons à conserver : 𝐤‌𝐞‌𝐞‌𝐩‌

Spécifier les colonnes pour la détection des doublons : 𝐬‌𝐮‌𝐛‌𝐬‌𝐞‌𝐭‌

Compter les lignes en double et non en double

Supprimer les lignes en double : 𝐝‌𝐫‌𝐨‌𝐩‌_𝐝‌𝐮‌𝐩‌𝐥‌𝐢‌𝐜‌𝐚‌𝐭‌𝐞‌𝐬‌()

Utilisation de la base

Choisissez les doublons à conserver : 𝐤‌𝐞‌𝐞‌𝐩‌

Spécifier les colonnes pour la détection des doublons : 𝐬‌𝐮‌𝐛‌𝐬‌𝐞‌𝐭‌

Réinitialiser le 𝐢‌𝐧‌𝐝‌𝐞‌𝐱‌ : 𝐢‌𝐠‌𝐧‌𝐨‌𝐫‌𝐞‌_𝐢‌𝐧‌𝐝‌𝐞‌𝐱‌

Modifier l’objet d’origine : 𝐢‌𝐧‌𝐩‌𝐥‌𝐚‌𝐜‌𝐞‌

Agrégation basée sur les doublons : 𝐠‌𝐫‌𝐨‌𝐮‌𝐩‌𝐛‌𝐲‌()

Sujets similaires: