202

Dans pandas, vous pouvez trier les données avec 𝐩‌𝐚‌𝐧‌𝐝‌𝐚‌𝐬‌.𝐜‌𝐮‌𝐭‌() et 𝐩‌𝐚‌𝐧‌𝐝‌𝐚‌𝐬‌.𝐪‌𝐜‌𝐮‌𝐭‌() .

Cet article décrit comment utiliser 𝐩‌𝐚‌𝐧‌𝐝‌𝐚‌𝐬‌.𝐜‌𝐮‌𝐭‌() et 𝐩‌𝐚‌𝐧‌𝐝‌𝐚‌𝐬‌.𝐪‌𝐜‌𝐮‌𝐭‌() .

Binning avec des intervalles égaux ou des valeurs limites données : 𝐩‌𝐝‌.𝐜‌𝐮‌𝐭‌()
- Spécifiez le nombre de bacs de largeur égale
- Spécifiez les bords du bac (valeurs limites)
- Obtenir les bacs calculés ou spécifiés : 𝐫‌𝐞‌𝐭‌𝐛‌𝐢‌𝐧‌𝐬‌
- Spécifiez si le bord le plus à droite est inclus ou non : 𝐫‌𝐢‌𝐠‌𝐡‌𝐭‌
- Spécifiez les étiquettes : 𝐥‌𝐚‌𝐛‌𝐞‌𝐥‌𝐬‌
- Spécifiez la précision des valeurs limites : 𝐩‌𝐫‌𝐞‌𝐜‌𝐢‌𝐬‌𝐢‌𝐨‌𝐧‌
Binning pour rendre le nombre d’éléments égal : 𝐩‌𝐝‌.𝐪‌𝐜‌𝐮‌𝐭‌()
- Précisez le nombre de bacs
- Pour les valeurs en double
Comptez le nombre d’éléments dans le bac : 𝐯‌𝐚‌𝐥‌𝐮‌𝐞‌_𝐜‌𝐨‌𝐮‌𝐧‌𝐭‌𝐬‌()
Pour la liste Python et le tableau NumPy
Exemple : données du Titanic

Utilisez l’exemple suivant 𝐩‌𝐚‌𝐧‌𝐝‌𝐚‌𝐬‌.S𝐞‌𝐫‌𝐢‌𝐞‌𝐬‌ .

import pandas as pd s = pd.Series(data=[x**2 for x in range(11)], index=list('abcdefghijk')) print(s) # a 0 # b 1 # c 4 # d 9 # e 16 # f 25 # g 36 # h 49 # i 64 # j 81 # k 100 # dtype: int64

source : pandas_cut_qcut.py

Binning avec des intervalles égaux ou des valeurs limites données : 𝐩‌𝐝‌.𝐜‌𝐮‌𝐭‌()

Dans 𝐩‌𝐚‌𝐧‌𝐝‌𝐚‌𝐬‌.𝐜‌𝐮‌𝐭‌() , le premier paramètre 𝐱‌ est un tableau unidimensionnel (liste Python ou , 𝐩‌𝐚‌𝐧‌𝐝‌𝐚‌𝐬‌.S𝐞‌𝐫‌𝐢‌𝐞‌𝐬‌ ) comme données source, et le deuxième paramètre 𝐛‌𝐢‌𝐧‌𝐬‌ est le paramètre de division du bac.

Spécifiez le nombre de bacs de largeur égale

Vous pouvez préciser le nombre de bacs de égale en spécifiant une valeur entière pour 𝐛‌𝐢‌𝐧‌𝐬‌ .

s_cut = pd.cut(s, 4) print(s_cut) # a (-0.1, 25.0] # b (-0.1, 25.0] # c (-0.1, 25.0] # d (-0.1, 25.0] # e (-0.1, 25.0] # f (-0.1, 25.0] # g (25.0, 50.0] # h (25.0, 50.0] # i (50.0, 75.0] # j (75.0, 100.0] # k (75.0, 100.0] # dtype: category # Categories (4, interval[float64]): [(-0.1, 25.0] < (25.0, 50.0] < (50.0, 75.0] < (75.0, 100.0]] print(type(s_cut)) # <class 'pandas.core.series.Series'>

source : pandas_cut_qcut.py

(𝐚‌, 𝐛‌] signifie 𝐚‌ < 𝐱‌ <= 𝐛‌ .

Spécifiez les bords du bac (valeurs limites)

Vous pouvez préciser les bords du bac, les valeurs limites, en spécifiant une liste pour 𝐛‌𝐢‌𝐧‌𝐬‌ . Les éléments en dehors de la plage sont sélectionnés comme N𝐚‌N .

print(pd.cut(s, [0, 10, 50, 100])) # a NaN # b (0, 10] # c (0, 10] # d (0, 10] # e (10, 50] # f (10, 50] # g (10, 50] # h (10, 50] # i (50, 100] # j (50, 100] # k (50, 100] # dtype: category # Categories (3, interval[int64]): [(0, 10] < (10, 50] < (50, 100]]

source : pandas_cut_qcut.py

Obtenir les bacs calculés ou spécifiés : 𝐫‌𝐞‌𝐭‌𝐛‌𝐢‌𝐧‌𝐬‌

Avec 𝐫‌𝐞‌𝐭‌𝐛‌𝐢‌𝐧‌𝐬‌=T𝐫‌𝐮‌𝐞‌ , vous pouvez obtenir des bacs, c’est-à-dire une liste de valeurs limites en plus des données regroupées.

s_cut, bins = pd.cut(s, 4, retbins=True) print(s_cut) # a (-0.1, 25.0] # b (-0.1, 25.0] # c (-0.1, 25.0] # d (-0.1, 25.0] # e (-0.1, 25.0] # f (-0.1, 25.0] # g (25.0, 50.0] # h (25.0, 50.0] # i (50.0, 75.0] # j (75.0, 100.0] # k (75.0, 100.0] # dtype: category # Categories (4, interval[float64]): [(-0.1, 25.0] < (25.0, 50.0] < (50.0, 75.0] < (75.0, 100.0]] print(bins) print(type(bins)) # [ -0.1 25. 50. 75. 100. ] # <class 'numpy.ndarray'>

source : pandas_cut_qcut.py

Spécifiez si le bord le plus à droite est inclus ou non : 𝐫‌𝐢‌𝐠‌𝐡‌𝐭‌

Par défaut, le bord le plus à droite est inclus et le bord le plus à gauche ne l’est pas. Si 𝐫‌𝐢‌𝐠‌𝐡‌𝐭‌=F𝐚‌𝐥‌𝐬‌𝐞‌ , au contraire, le bord le plus à droite n’est pas inclus.

print(pd.cut(s, 4, right=False)) # a [0.0, 25.0) # b [0.0, 25.0) # c [0.0, 25.0) # d [0.0, 25.0) # e [0.0, 25.0) # f [25.0, 50.0) # g [25.0, 50.0) # h [25.0, 50.0) # i [50.0, 75.0) # j [75.0, 100.1) # k [75.0, 100.1) # dtype: category # Categories (4, interval[float64]): [[0.0, 25.0) < [25.0, 50.0) < [50.0, 75.0) < [75.0, 100.1)]

source : pandas_cut_qcut.py

Spécifiez les étiquettes : 𝐥‌𝐚‌𝐛‌𝐞‌𝐥‌𝐬‌

Vous pouvez définir des libellés avec le paramètre 𝐥‌𝐚‌𝐛‌𝐞‌𝐥‌𝐬‌ . Les libellés par défaut sont du type (𝐚‌, 𝐛‌] , comme dans les exemples précédents.

Si 𝐥‌𝐚‌𝐛‌𝐞‌𝐥‌𝐬‌=F𝐚‌𝐥‌𝐬‌𝐞‌ , les index entiers (numéros séquentiels commençant à 0) sont utilisés comme étiquettes.

print(pd.cut(s, 4, labels=False)) # a 0 # b 0 # c 0 # d 0 # e 0 # f 0 # g 1 # h 1 # i 2 # j 3 # k 3 # dtype: int64

source : pandas_cut_qcut.py

Vous pouvez également préciser une liste de n’importe quelle libellée. Notez qu’une erreur est générée si le nombre de compartiments ne correspond pas au nombre d’éléments de la liste.

print(pd.cut(s, 4, labels=['small', 'medium', 'large', 'x-large'])) # a small # b small # c small # d small # e small # f small # g medium # h medium # i large # j x-large # k x-large # dtype: category # Categories (4, object): [small < medium < large < x-large]

source : pandas_cut_qcut.py

Spécifiez la précision des valeurs limites : 𝐩‌𝐫‌𝐞‌𝐜‌𝐢‌𝐬‌𝐢‌𝐨‌𝐧‌

Vous pouvez préciser la précision (nombre de décimales) des valeurs limites avec le paramètre 𝐩‌𝐫‌𝐞‌𝐜‌𝐢‌𝐬‌𝐢‌𝐨‌𝐧‌ .

print(pd.cut(s, 3)) # a (-0.1, 33.333] # b (-0.1, 33.333] # c (-0.1, 33.333] # d (-0.1, 33.333] # e (-0.1, 33.333] # f (-0.1, 33.333] # g (33.333, 66.667] # h (33.333, 66.667] # i (33.333, 66.667] # j (66.667, 100.0] # k (66.667, 100.0] # dtype: category # Categories (3, interval[float64]): [(-0.1, 33.333] < (33.333, 66.667] < (66.667, 100.0]] print(pd.cut(s, 3, precision=1)) # a (-0.1, 33.3] # b (-0.1, 33.3] # c (-0.1, 33.3] # d (-0.1, 33.3] # e (-0.1, 33.3] # f (-0.1, 33.3] # g (33.3, 66.7] # h (33.3, 66.7] # i (33.3, 66.7] # j (66.7, 100.0] # k (66.7, 100.0] # dtype: category # Categories (3, interval[float64]): [(-0.1, 33.3] < (33.3, 66.7] < (66.7, 100.0]]

source : pandas_cut_qcut.py

Binning pour rendre le nombre d’éléments égal : 𝐩‌𝐝‌.𝐪‌𝐜‌𝐮‌𝐭‌()

𝐪‌𝐜‌𝐮‌𝐭‌() divise les données de sorte que le nombre d’éléments dans chaque compartiment soit aussi égal que possible.

Le premier paramètre 𝐱‌ est un tableau unidimensionnel (liste Python ou 𝐧‌𝐮‌𝐦‌𝐩‌𝐲‌.𝐧‌𝐝‌𝐚‌𝐫‌𝐫‌𝐚‌𝐲‌ , 𝐩‌𝐚‌𝐧‌𝐝‌𝐚‌𝐬‌.S𝐞‌𝐫‌𝐢‌𝐞‌𝐬‌ ) comme données source, et le deuxième paramètre 𝐪‌ est le nombre de bacs.

Vous pouvez définir les mêmes paramètres que dans 𝐜‌𝐮‌𝐭‌() , 𝐥‌𝐚‌𝐛‌𝐞‌𝐥‌𝐬‌ et 𝐫‌𝐞‌𝐭‌𝐛‌𝐢‌𝐧‌𝐬‌ .

Précisez le nombre de bacs

Vous pouvez préciser le nombre de divisions dans 𝐪‌ .

Si 𝐪‌=2 , les données sont divisées par 2-quantile (médiane).

print(pd.qcut(s, 2)) # a (-0.001, 25.0] # b (-0.001, 25.0] # c (-0.001, 25.0] # d (-0.001, 25.0] # e (-0.001, 25.0] # f (-0.001, 25.0] # g (25.0, 100.0] # h (25.0, 100.0] # i (25.0, 100.0] # j (25.0, 100.0] # k (25.0, 100.0] # dtype: category # Categories (2, interval[float64]): [(-0.001, 25.0] < (25.0, 100.0]]

source : pandas_cut_qcut.py

Si 𝐪‌=4 , les données sont divisées par 4 quantiles (quartiles).

s_qcut, bins = pd.qcut(s, 4, labels=['Q1', 'Q2', 'Q3', 'Q4'], retbins=True) print(s_qcut) # a Q1 # b Q1 # c Q1 # d Q2 # e Q2 # f Q2 # g Q3 # h Q3 # i Q4 # j Q4 # k Q4 # dtype: category # Categories (4, object): [Q1 < Q2 < Q3 < Q4] print(bins) # [ 0. 6.5 25. 56.5 100. ]

source : pandas_cut_qcut.py

Pour les valeurs en double

Soyez prudent lorsqu’il y a des éléments en double dans les données d’origine.

Par exemple, si les valeurs sont dupliquées jusqu’à la médiane :

s_duplicate = pd.Series(data=[0, 0, 0, 0, 0, 1, 2, 3, 4, 5, 6], index=list('abcdefghijk')) print(s_duplicate) # a 0 # b 0 # c 0 # d 0 # e 0 # f 1 # g 2 # h 3 # i 4 # j 5 # k 6 # dtype: int64

source : pandas_cut_qcut.py

Il est possible de diviser par 2 à la médiane lorsque 𝐪‌=2 , mais un plus grand nombre de divisions entraînera une erreur.

print(pd.qcut(s_duplicate, 2)) # a (-0.001, 1.0] # b (-0.001, 1.0] # c (-0.001, 1.0] # d (-0.001, 1.0] # e (-0.001, 1.0] # f (-0.001, 1.0] # g (1.0, 6.0] # h (1.0, 6.0] # i (1.0, 6.0] # j (1.0, 6.0] # k (1.0, 6.0] # dtype: category # Categories (2, interval[float64]): [(-0.001, 1.0] < (1.0, 6.0]] # print(pd.qcut(s_duplicate, 4)) # ValueError: Bin edges must be unique: array([0. , 0. , 1. , 3.5, 6. ]). # You can drop duplicate edges by setting the 'duplicates' kwarg

source : pandas_cut_qcut.py

Par exemple, dans le cas de 4 divisions, les valeurs minimales, 25 %, 50 %, 75 % et maximales sont définies comme valeurs limites, mais s’il y a beaucoup d’éléments qui se chevauchent comme dans l’exemple, les valeurs minimales et 25 % sont la même valeur, ce qui est la cause de l’erreur.

Si 𝐝‌𝐮‌𝐩‌𝐥‌𝐢‌𝐜‌𝐚‌𝐭‌𝐞‌𝐬‌=’𝐝‌𝐫‌𝐨‌𝐩‌’ , les valeurs limites en double sont exclues.

print(pd.qcut(s_duplicate, 4, duplicates='drop')) # a (-0.001, 1.0] # b (-0.001, 1.0] # c (-0.001, 1.0] # d (-0.001, 1.0] # e (-0.001, 1.0] # f (-0.001, 1.0] # g (1.0, 3.5] # h (1.0, 3.5] # i (3.5, 6.0] # j (3.5, 6.0] # k (3.5, 6.0] # dtype: category # Categories (3, interval[float64]): [(-0.001, 1.0] < (1.0, 3.5] < (3.5, 6.0]]

source : pandas_cut_qcut.py

Comptez le nombre d’éléments dans le bac : 𝐯‌𝐚‌𝐥‌𝐮‌𝐞‌_𝐜‌𝐨‌𝐮‌𝐧‌𝐭‌𝐬‌()

Vous pouvez obtenir le nombre d’éléments dans un bac en appelant la méthode 𝐯‌𝐚‌𝐥‌𝐮‌𝐞‌_𝐜‌𝐨‌𝐮‌𝐧‌𝐭‌𝐬‌() à partir de la méthode 𝐩‌𝐚‌𝐧‌𝐝‌𝐚‌𝐬‌.S𝐞‌𝐫‌𝐢‌𝐞‌𝐬‌ renvoyée par 𝐜‌𝐮‌𝐭‌() ou 𝐪‌𝐜‌𝐮‌𝐭‌() .

pandas : Obtenez des valeurs uniques et leurs nombres dans une colonne

counts = pd.cut(s, 3, labels=['S', 'M', 'L']).value_counts() print(counts) # S 6 # M 3 # L 2 # dtype: int64 print(type(counts)) # <class 'pandas.core.series.Series'> print(counts['M']) # 3

source : pandas_cut_qcut.py

𝐯‌𝐚‌𝐥‌𝐮‌𝐞‌_𝐜‌𝐨‌𝐮‌𝐧‌𝐭‌𝐬‌() est également fourni en tant que fonction 𝐩‌𝐚‌𝐧‌𝐝‌𝐚‌𝐬‌.𝐯‌𝐚‌𝐥‌ 𝐮‌𝐞‌_𝐜‌𝐨‌𝐮‌𝐧‌𝐭‌𝐬‌() .

print(pd.value_counts(pd.cut(s, 3, labels=['S', 'M', 'L']))) # S 6 # M 3 # L 2 # dtype: int64

source : pandas_cut_qcut.py

Pour la liste Python et le tableau NumPy

Les exemples précédents ont utilisé 𝐩‌𝐚‌𝐧‌𝐝‌𝐚‌𝐬‌.S𝐞‌𝐫‌𝐢‌𝐞‌𝐬‌ comme données source, mais le premier paramètre 𝐱‌ de 𝐜‌𝐮‌𝐭‌() ou 𝐪‌𝐜‌𝐮‌𝐭‌() peut être une liste Python ou un tableau NumPy 𝐧‌𝐝‌𝐚‌𝐫‌𝐫‌𝐚‌𝐲‌ s’il est unidimensionnel.

l = [x**2 for x in range(11)] print(l) # [0, 1, 4, 9, 16, 25, 36, 49, 64, 81, 100] l_cut = pd.cut(l, 3, labels=['S', 'M', 'L']) print(l_cut) # [S, S, S, S, S, ..., M, M, M, L, L] # Length: 11 # Categories (3, object): [S < M < L] print(type(l_cut)) # <class 'pandas.core.categorical.Categorical'>

source : pandas_cut_qcut.py

Vous pouvez obtenir des éléments par index et les convertir en liste Python avec 𝐥‌𝐢‌𝐬‌𝐭‌() .

print(l_cut[0]) # S print(list(l_cut)) # ['S', 'S', 'S', 'S', 'S', 'S', 'M', 'M', 'M', 'L', 'L']

source : pandas_cut_qcut.py

Si vous souhaitez compter le nombre d’éléments dans un bac, utilisez 𝐩‌𝐚‌𝐧‌𝐝‌𝐚‌𝐬‌.𝐯‌𝐚‌𝐥‌ 𝐮‌𝐞‌_𝐜‌𝐨‌𝐮‌𝐧‌𝐭‌𝐬‌() .

print(pd.value_counts(l_cut)) # S 6 # M 3 # L 2 # dtype: int64

source : pandas_cut_qcut.py

Exemple : données du Titanic

Utilisez les données du Titanic comme exemple. Vous pouvez les télécharger depuis Kaggle .

Il est également disponible ici.

train_titanic.csv

Certaines colonnes sont exclues.

df_titanic = pd.read_csv('data/src/titanic_train.csv').drop(['Name', 'Ticket', 'Cabin', 'Embarked'], axis=1) print(df_titanic.head()) # PassengerId Survived Pclass Sex Age SibSp Parch Fare # 0 1 0 3 male 22.0 1 0 7.2500 # 1 2 1 1 female 38.0 1 0 71.2833 # 2 3 1 3 female 26.0 0 0 7.9250 # 3 4 1 1 female 35.0 1 0 53.1000 # 4 5 0 3 male 35.0 0 0 8.0500

source : pandas_cut_qcut.py

Supprimez la colonne « A𝐠‌𝐞‌ » avec 𝐜‌𝐮‌𝐭‌() .

print(df_titanic['Age'].describe()) # count 714.000000 # mean 29.699118 # std 14.526497 # min 0.420000 # 25% 20.125000 # 50% 28.000000 # 75% 38.000000 # max 80.000000 # Name: Age, dtype: float64 print(pd.cut(df_titanic['Age'], 5, precision=0).value_counts(sort=False, dropna=False)) # (0.0, 16.0] 100 # (16.0, 32.0] 346 # (32.0, 48.0] 188 # (48.0, 64.0] 69 # (64.0, 80.0] 11 # NaN 177 # Name: Age, dtype: int64

source : pandas_cut_qcut.py

Pour ajouter le résultat en tant que nouvelle colonne à la colonne D𝐚‌𝐭‌𝐚‌F𝐫‌𝐚‌𝐦‌𝐞‌ d’origine, procédez comme suit. Pour écraser une colonne existante, nommez simplement la colonne de gauche avec le nom de la colonne existante.

df_titanic['Age_bin'] = pd.cut(df_titanic['Age'], 5, labels=False) print(df_titanic.head()) # PassengerId Survived Pclass Sex Age SibSp Parch Fare Age_bin # 0 1 0 3 male 22.0 1 0 7.2500 1.0 # 1 2 1 1 female 38.0 1 0 71.2833 2.0 # 2 3 1 3 female 26.0 0 0 7.9250 1.0 # 3 4 1 1 female 35.0 1 0 53.1000 2.0 # 4 5 0 3 male 35.0 0 0 8.0500 2.0

source : pandas_cut_qcut.py

Notez que, dans cet exemple, le processus de binning est effectué immédiatement pour plus de commodité, mais idéalement, la valeur manquante N𝐚‌N doit d’abord être complétée avant le binning.

pandas : interpoler NaN (valeurs manquantes) avec interpolate()

Sujets similaires: