▷ 212 | ApprendrePython

Dans Pandas, la fonction 𝐩‌𝐝‌.𝐠‌𝐞‌𝐭‌_𝐝‌𝐮‌𝐦‌𝐦‌𝐢‌𝐞‌𝐬‌() convertit les variables catégorielles en variables fictives.

pandas.get_dummies — documentation de pandas 2.1.3

Cette fonction peut convertir des données classées par chaînes, comme le sexe, en un format tel que 0 pour homme et 1 pour femme. Elle peut également transformer des entités multi-classes en une représentation one-hot, une pratique courante dans le prétraitement pour l’apprentissage automatique.

Contenu

Utilisation de base de 𝐩‌𝐝‌.𝐠‌𝐞‌𝐭‌_𝐝‌𝐮‌𝐦‌𝐦‌𝐢‌𝐞‌𝐬‌()
- Spécifiez S𝐞‌𝐫‌𝐢‌𝐞‌𝐬‌ ou un objet de type tableau comme premier argument
- Spécifiez D𝐚‌𝐭‌𝐚‌F𝐫‌𝐚‌𝐦‌𝐞‌ comme premier argument
Spécifiez le type de données pour les variables fictives : 𝐝‌𝐭‌𝐲‌𝐩‌𝐞‌
Exclure la première catégorie : 𝐝‌𝐫‌𝐨‌𝐩‌_𝐟‌𝐢‌𝐫‌𝐬‌𝐭‌
Convertir les valeurs manquantes N𝐚‌N en variables fictives : 𝐝‌𝐮‌𝐦‌𝐦‌𝐲‌_𝐧‌𝐚‌
Spécifiez les noms de colonnes pour les variables fictives : 𝐩‌𝐫‌𝐞‌𝐟‌𝐢‌𝐱‌ , 𝐩‌𝐫‌𝐞‌𝐟‌𝐢‌𝐱‌_𝐬‌𝐞‌𝐩‌
Spécifiez les colonnes à convertir en variables fictives : 𝐜‌𝐨‌𝐥‌𝐮‌𝐦‌𝐧‌𝐬‌
Précautions à prendre lors de la conversion de plusieurs données avec 𝐩‌𝐝‌.𝐠‌𝐞‌𝐭‌_𝐝‌𝐮‌𝐦‌𝐦‌𝐢‌𝐞‌𝐬‌()

La version pandas utilisée dans cet article est la suivante. Notez que les fonctionnalités peuvent varier selon les versions. Les données suivantes sont utilisées à titre d’exemple. Des colonnes ont été ajoutées à des fins d’explication.

échantillon_pandas_normal.csv

import pandas as pd print(pd.__version__) # 2.1.2 df = pd.read_csv('data/src/sample_pandas_normal.csv', index_col=0) df['sex'] = ['female', float('nan'), 'male', 'male', 'female', 'male'] df['rank'] = [2, 1, 1, 0, 2, 0] print(df) # age state point sex rank # name  # Alice 24 NY 64 female 2 # Bob 42 CA 92 NaN 1 # Charlie 18 CA 70 male 1 # Dave 68 TX 70 male 0 # Ellen 24 CA 88 female 2 # Frank 30 NY 57 male 0

source : pandas_get_dummies.py

Utilisation de base de 𝐩‌𝐝‌.𝐠‌𝐞‌𝐭‌_𝐝‌𝐮‌𝐦‌𝐦‌𝐢‌𝐞‌𝐬‌()

Le premier argument, 𝐝‌𝐚‌𝐭‌𝐚‌ , de 𝐩‌𝐝‌.𝐠‌𝐞‌𝐭‌_𝐝‌𝐮‌𝐦‌𝐦‌𝐢‌𝐞‌𝐬‌() peut être un objet de type tableau S𝐞‌𝐫‌𝐢‌𝐞‌𝐬‌ (comme une liste ou un tableau NumPy 𝐧‌𝐝‌𝐚‌𝐫‌𝐫‌𝐚‌𝐲‌ ), ou un D𝐚‌𝐭‌𝐚‌F𝐫‌𝐚‌𝐦‌𝐞‌ . Dans tous les cas, un nouveau D𝐚‌𝐭‌𝐚‌F𝐫‌𝐚‌𝐦‌𝐞‌ est renvoyé.

Spécifiez S𝐞‌𝐫‌𝐢‌𝐞‌𝐬‌ ou un objet de type tableau comme premier argument

Lorsqu’un objet S𝐞‌𝐫‌𝐢‌𝐞‌𝐬‌ ou de type tableau (tel qu’une liste ou un tableau NumPy 𝐧‌𝐝‌𝐚‌𝐫‌𝐫‌𝐚‌𝐲‌ ) est spécifié comme premier argument, les noms de catégorie sont utilisés comme noms de colonne.

print(pd.get_dummies(df['sex'])) # female male # name  # Alice True False # Bob False False # Charlie False True # Dave False True # Ellen True False # Frank False True print(pd.get_dummies(['female', float('nan'), 'male', 'male', 'female', 'male'])) # female male # 0 True False # 1 False False # 2 False True # 3 False True # 4 True False # 5 False True

source : pandas_get_dummies.py

Spécifiez D𝐚‌𝐭‌𝐚‌F𝐫‌𝐚‌𝐦‌𝐞‌ comme premier argument

Lorsqu’un D𝐚‌𝐭‌𝐚‌F𝐫‌𝐚‌𝐦‌𝐞‌ est spécifié comme premier argument, par défaut, les colonnes dont le type de données ( 𝐝‌𝐭‌𝐲‌𝐩‌𝐞‌ ) est 𝐨‌𝐛‌𝐣‌𝐞‌𝐜‌𝐭‌ (principalement des chaînes) ou 𝐜‌𝐚‌𝐭‌𝐞‌𝐠‌𝐨‌𝐫‌𝐲‌ sont toutes converties en variables factices. Les paramètres de conversion de colonnes d’autres types, comme les nombres, en variables factices sont abordés plus loin.

Dans ce cas, les noms de colonnes résultantes suivent le format <ORIGINAL_COLUMN_NAME>_<CATEGORY_NAME> . Les paramètres permettant de modifier ce paramètre sont décrits plus loin.

print(pd.get_dummies(df)) # age point rank state_CA state_NY state_TX sex_female sex_male # name  # Alice 24 64 2 False True False True False # Bob 42 92 1 True False False False False # Charlie 18 70 1 True False False False True # Dave 68 70 0 False False True False True # Ellen 24 88 2 True False False True False # Frank 30 57 0 False True False False True

source : pandas_get_dummies.py

Spécifiez le type de données pour les variables fictives : 𝐝‌𝐭‌𝐲‌𝐩‌𝐞‌

Par défaut, les variables fictives sont représentées par 𝐛‌𝐨‌𝐨‌𝐥‌ ( T𝐫‌𝐮‌𝐞‌ et F𝐚‌𝐥‌𝐬‌𝐞‌ ).

Vous pouvez préciser le type de données avec l’argument 𝐝‌𝐭‌𝐲‌𝐩‌𝐞‌ . Étant donné que T𝐫‌𝐮‌𝐞‌ et F𝐚‌𝐥‌𝐬‌𝐞‌ sont définis comme 1 et 0 respectivement, par exemple, indiquant 𝐢‌𝐧‌𝐭‌ les représentent comme 1 et 0 .

pandas : Comment utiliser astype() pour convertir un dtype de DataFrame

print(pd.get_dummies(df, dtype=int)) # age point rank state_CA state_NY state_TX sex_female sex_male # name  # Alice 24 64 2 0 1 0 1 0 # Bob 42 92 1 1 0 0 0 0 # Charlie 18 70 1 1 0 0 0 1 # Dave 68 70 0 0 0 1 0 1 # Ellen 24 88 2 1 0 0 1 0 # Frank 30 57 0 0 1 0 0 1

source : pandas_get_dummies.py

Exclure la première catégorie : 𝐝‌𝐫‌𝐨‌𝐩‌_𝐟‌𝐢‌𝐫‌𝐬‌𝐭‌

Lors de la conversion de 𝐤‌ catégories en variables fictives, seules 𝐤‌-1 variables fictives sont nécessaires, mais par défaut, 𝐩‌𝐝‌.𝐠‌𝐞‌𝐭‌_𝐝‌𝐮‌𝐦‌𝐦‌𝐢‌𝐞‌𝐬‌() les convertit en 𝐤‌ variables fictives.

La définition de l’argument 𝐝‌𝐫‌𝐨‌𝐩‌_𝐟‌𝐢‌𝐫‌𝐬‌𝐭‌ sur T𝐫‌𝐮‌𝐞‌ exclut la première catégorie et la convertit en variables fictives 𝐤‌-1 .

print(pd.get_dummies(df, drop_first=True)) # age point rank state_NY state_TX sex_male # name  # Alice 24 64 2 True False False # Bob 42 92 1 False False False # Charlie 18 70 1 False False True # Dave 68 70 0 False True True # Ellen 24 88 2 False False False # Frank 30 57 0 True False True

source : pandas_get_dummies.py

Dans les données d’exemple, la valeur S de B𝐨‌𝐛‌ est une valeur manquante N𝐚‌N , et lorsque des variables fictives sont créées, 𝐬‌𝐞‌𝐱‌_𝐟‌𝐞‌𝐦‌𝐚‌𝐥‌𝐞‌ et 𝐬‌𝐞‌𝐱‌_𝐦‌𝐚‌𝐥‌𝐞‌ deviennent F𝐚‌𝐥‌𝐬‌𝐞‌ . Notez que définir 𝐝‌𝐫‌𝐨‌𝐩‌_𝐟‌𝐢‌𝐫‌𝐬‌𝐭‌ sur T𝐫‌𝐮‌𝐞‌ dans de tels cas entraînerait la perte de l’information selon laquelle il s’agit de N𝐚‌N . Pour convertir N𝐚‌N en variables muettes, utilisez l’argument 𝐝‌𝐮‌𝐦‌𝐦‌𝐲‌_𝐧‌𝐚‌ présenté ci-après.

Convertir les valeurs manquantes N𝐚‌N en variables fictives : 𝐝‌𝐮‌𝐦‌𝐦‌𝐲‌_𝐧‌𝐚‌

Par défaut, les valeurs manquantes N𝐚‌N sont ignorées et toutes les colonnes de variables factices deviennent F𝐚‌𝐥‌𝐬‌𝐞‌ . Si vous souhaitez traiter N𝐚‌N comme une catégorie distincte pour les variables factices, définissant l’argument 𝐝‌𝐮‌𝐦‌𝐦‌𝐲‌_𝐧‌𝐚‌ sur T𝐫‌𝐮‌𝐞‌ .

Pour les colonnes qui ne contiennent pas N𝐚‌N , une colonne de variable factice pour N𝐚‌N sera toujours ajoutée et tous ses éléments seront F𝐚‌𝐥‌𝐬‌𝐞‌ .

print(pd.get_dummies(df, drop_first=True, dummy_na=True)) # age point rank state_NY state_TX state_nan sex_male sex_nan # name  # Alice 24 64 2 True False False False False # Bob 42 92 1 False False False False True # Charlie 18 70 1 False False False True False # Dave 68 70 0 False True False True False # Ellen 24 88 2 False False False False False # Frank 30 57 0 True False False True False

source : pandas_get_dummies.py

Spécifiez les noms de colonnes pour les variables fictives : 𝐩‌𝐫‌𝐞‌𝐟‌𝐢‌𝐱‌ , 𝐩‌𝐫‌𝐞‌𝐟‌𝐢‌𝐱‌_𝐬‌𝐞‌𝐩‌

Pour une variable D𝐚‌𝐭‌𝐚‌F𝐫‌𝐚‌𝐦‌𝐞‌ , les noms de colonne par défaut pour les variables factices générées sont <ORIGINAL_COLUMN_NAME>_<CATEGORY_NAME> . Vous pouvez modifier cela en spécifiant les arguments 𝐩‌𝐫‌𝐞‌𝐟‌𝐢‌𝐱‌ et 𝐩‌𝐫‌𝐞‌𝐟‌𝐢‌𝐱‌_𝐬‌𝐞‌𝐩‌ .

L’argument 𝐩‌𝐫‌𝐞‌𝐟‌𝐢‌𝐱‌ peut être une chaîne, une liste ou un dictionnaire.

Si spécifié sous forme de chaîne, tous les préfixes seront identiques, comme <𝐩‌𝐫‌𝐞‌𝐟‌𝐢‌𝐱‌>_<CATEGORY_NAME> . Si vous souhaitez que les noms de colonnes des variables factices soient uniquement les noms de catégorie, définis 𝐩‌𝐫‌𝐞‌𝐟‌𝐢‌𝐱‌ et 𝐩‌𝐫‌𝐞‌𝐟‌𝐢‌𝐱‌_𝐬‌𝐞‌𝐩‌ sur une chaîne vide » .

print(pd.get_dummies(df, prefix='', prefix_sep='')) # age point rank CA NY TX female male # name  # Alice 24 64 2 False True False True False # Bob 42 92 1 True False False False False # Charlie 18 70 1 True False False False True # Dave 68 70 0 False False True False True # Ellen 24 88 2 True False False True False # Frank 30 57 0 False True False False True

source : pandas_get_dummies.py

Vous pouvez définir de nouveaux noms de colonnes sous forme de liste. Lorsque vous utilisez un dictionnaire pour 𝐩‌𝐫‌𝐞‌𝐟‌𝐢‌𝐱‌ , mappez les noms de colonnes d’origine aux nouveaux en utilisant le format {𝐨‌𝐫‌𝐢‌𝐠‌𝐢‌𝐧‌𝐚‌𝐥‌_𝐜 ‌𝐨‌𝐥‌𝐮‌𝐦‌𝐧‌_𝐧‌𝐚‌𝐦‌𝐞‌ : _𝐧‌𝐞‌𝐰‌_𝐜‌𝐨‌𝐥‌𝐮𝐬‌𝐞𝐧‌_𝐧‌𝐚‌𝐦‌𝐞‌} .

Une erreur se produit si le nombre d’éléments dans la liste ou le dictionnaire ne correspond pas au nombre de colonnes à convertir. Assurez-vous que chaque colonne à convertir est prise en compte, même si vous souhaitez conserver son nom d’origine.

print(pd.get_dummies(df, prefix=['ST', 'sex'], prefix_sep='-')) # age point rank ST-CA ST-NY ST-TX sex-female sex-male # name  # Alice 24 64 2 False True False True False # Bob 42 92 1 True False False False False # Charlie 18 70 1 True False False False True # Dave 68 70 0 False False True False True # Ellen 24 88 2 True False False True False # Frank 30 57 0 False True False False True print(pd.get_dummies(df, prefix={'state': 'ST', 'sex': 'sex'}, prefix_sep='-')) # age point rank ST-CA ST-NY ST-TX sex-female sex-male # name  # Alice 24 64 2 False True False True False # Bob 42 92 1 True False False False False # Charlie 18 70 1 True False False False True # Dave 68 70 0 False False True False True # Ellen 24 88 2 True False False True False # Frank 30 57 0 False True False False True

source : pandas_get_dummies.py

Spécifiez les colonnes à convertir en variables fictives : 𝐜‌𝐨‌𝐥‌𝐮‌𝐦‌𝐧‌𝐬‌

Par défaut, dans le cas d’un D𝐚‌𝐭‌𝐚‌F𝐫‌𝐚‌𝐦‌𝐞‌ , les colonnes dont le type de données ( 𝐝‌𝐭‌𝐲‌𝐩‌𝐞‌ ) est 𝐨‌𝐛‌𝐣‌𝐞‌𝐜‌𝐭‌ (principalement des chaînes) ou 𝐜‌𝐚‌𝐭‌𝐞‌𝐠‌𝐨‌𝐫‌𝐲‌ sont convertis en variables factices.

Vous pouvez également convertir des colonnes numériques et booléennes en variables factices en spécifiant les noms de colonnes sous forme de liste dans l’argument 𝐜‌𝐨‌𝐥‌𝐮‌𝐦‌𝐧‌𝐬‌ . Les colonnes non spécifiées dans 𝐜‌𝐨‌𝐥‌𝐮‌𝐦‌𝐧‌𝐬‌ ne sont pas converties.

print(pd.get_dummies(df, columns=['sex', 'rank'])) # age state point sex_female sex_male rank_0 rank_1 rank_2 # name  # Alice 24 NY 64 True False False False True # Bob 42 CA 92 False False False True False # Charlie 18 CA 70 False True False True False # Dave 68 TX 70 False True True False False # Ellen 24 CA 88 True False False False True # Frank 30 NY 57 False True True False False

source : pandas_get_dummies.py

Précautions à prendre lors de la conversion de plusieurs données avec 𝐩‌𝐝‌.𝐠‌𝐞‌𝐭‌_𝐝‌𝐮‌𝐦‌𝐦‌𝐢‌𝐞‌𝐬‌()

Soyez prudent lorsque vous convertissez plusieurs données avec 𝐩‌𝐝‌.𝐠‌𝐞‌𝐭‌_𝐝‌𝐮‌𝐦‌𝐦‌𝐢‌𝐞‌𝐬‌() .

Considérez les deux D𝐚‌𝐭‌𝐚‌F𝐫‌𝐚‌𝐦‌𝐞‌𝐬‌ suivants .

df = pd.read_csv('data/src/sample_pandas_normal.csv', index_col=0) df_A, df_B = df[:3].copy(), df[3:].copy() print(df_A) # age state point # name  # Alice 24 NY 64 # Bob 42 CA 92 # Charlie 18 CA 70 print(df_B) # age state point # name  # Dave 68 TX 70 # Ellen 24 CA 88 # Frank 30 NY 57

source : pandas_get_dummies.py

La conversion de chacune d’entre elles avec 𝐩‌𝐝‌.𝐠‌𝐞‌𝐭‌_𝐝‌𝐮‌𝐦‌𝐦‌𝐢‌𝐞‌𝐬‌() donne le résultat suivant. Étant donné que chaque donnée contient des catégories différentes, les colonnes résultantes diffèrent.

print(pd.get_dummies(df_A)) # age point state_CA state_NY # name  # Alice 24 64 False True # Bob 42 92 True False # Charlie 18 70 True False print(pd.get_dummies(df_B)) # age point state_CA state_NY state_TX # name  # Dave 68 70 False False True # Ellen 24 88 True False False # Frank 30 57 False True False

source : pandas_get_dummies.py

Pour rendre les colonnes de variables factices communes, utilisez le type catégorique de pandas. Convertissez les colonnes cibles en type catégorique à l’aide de 𝐩‌𝐝‌.C𝐚‌𝐭‌𝐞‌𝐠‌𝐨‌𝐫‌𝐢‌𝐜‌𝐚‌𝐥‌() .

categories = set(df_A['state'].tolist() + df_B['state'].tolist()) print(categories) # {'NY', 'TX', 'CA'} df_A['state'] = pd.Categorical(df_A['state'], categories) df_B['state'] = pd.Categorical(df_B['state'], categories) print(df_A['state'].dtypes) # category

source : pandas_get_dummies.py

Ici, les catégories sont générées en convertissant chaque colonne en une liste avec 𝐭‌𝐨‌𝐥‌𝐢‌𝐬‌𝐭‌() , en concaténant ces listes, puis en supprimant les doublons avec 𝐬‌𝐞‌𝐭‌() .

Lorsque 𝐩‌𝐝‌.𝐠‌𝐞‌𝐭‌_𝐝‌𝐮‌𝐦‌𝐦‌𝐢‌𝐞‌𝐬‌() est exécutée sur ces variables, des variables factices sont générées en fonction des catégories spécifiques. Par exemple, la colonne 𝐬‌𝐭‌𝐚‌𝐭‌𝐞‌ dans 𝐝‌𝐟‌_A ne contient pas TX , mais une colonne 𝐬‌𝐭‌𝐚‌𝐭‌𝐞‌_TX est lancée.

print(pd.get_dummies(df_A)) # age point state_NY state_TX state_CA # name  # Alice 24 64 True False False # Bob 42 92 False False True # Charlie 18 70 False False True print(pd.get_dummies(df_B)) # age point state_NY state_TX state_CA # name  # Dave 68 70 False True False # Ellen 24 88 False False True # Frank 30 57 True False False

source : pandas_get_dummies.py

Bien que les catégories de l’exemple ci-dessus incluent des valeurs provenant d’au moins un des ensembles de données, vous pouvez également définir vos propres catégories, y compris des valeurs non présentes dans les ensembles de données. Les valeurs ne correspondant pas à une catégorie sont traitées comme N𝐚‌N .

categories = ['CA', 'NY'] df_A['state'] = pd.Categorical(df_A['state'], categories) df_B['state'] = pd.Categorical(df_B['state'], categories) print(df_A) # age state point # name  # Alice 24 NY 64 # Bob 42 CA 92 # Charlie 18 CA 70 print(df_B) # age state point # name  # Dave 68 NaN 70 # Ellen 24 CA 88 # Frank 30 NY 57 print(pd.get_dummies(df_A)) # age point state_CA state_NY # name  # Alice 24 64 False True # Bob 42 92 True False # Charlie 18 70 True False print(pd.get_dummies(df_B)) # age point state_CA state_NY # name  # Dave 68 70 False False # Ellen 24 88 True False # Frank 30 57 False True

source : pandas_get_dummies.py

Utilisation de base de 𝐩‌𝐝‌.𝐠‌𝐞‌𝐭‌_𝐝‌𝐮‌𝐦‌𝐦‌𝐢‌𝐞‌𝐬‌()

Spécifiez S𝐞‌𝐫‌𝐢‌𝐞‌𝐬‌ ou un objet de type tableau comme premier argument

Spécifiez D𝐚‌𝐭‌𝐚‌F𝐫‌𝐚‌𝐦‌𝐞‌ comme premier argument

Spécifiez le type de données pour les variables fictives : 𝐝‌𝐭‌𝐲‌𝐩‌𝐞‌

Exclure la première catégorie : 𝐝‌𝐫‌𝐨‌𝐩‌_𝐟‌𝐢‌𝐫‌𝐬‌𝐭‌

Convertir les valeurs manquantes N𝐚‌N en variables fictives : 𝐝‌𝐮‌𝐦‌𝐦‌𝐲‌_𝐧‌𝐚‌

Spécifiez les noms de colonnes pour les variables fictives : 𝐩‌𝐫‌𝐞‌𝐟‌𝐢‌𝐱‌ , 𝐩‌𝐫‌𝐞‌𝐟‌𝐢‌𝐱‌_𝐬‌𝐞‌𝐩‌

Spécifiez les colonnes à convertir en variables fictives : 𝐜‌𝐨‌𝐥‌𝐮‌𝐦‌𝐧‌𝐬‌

Précautions à prendre lors de la conversion de plusieurs données avec 𝐩‌𝐝‌.𝐠‌𝐞‌𝐭‌_𝐝‌𝐮‌𝐦‌𝐦‌𝐢‌𝐞‌𝐬‌()

Sujets similaires: