▷ 197 | ApprendrePython

Cet article explique comment ajouter de nouvelles lignes/colonnes à un 𝐩‌𝐚‌𝐧‌𝐝‌𝐚‌𝐬‌.D𝐚‌𝐭‌𝐚‌F𝐫‌𝐚‌𝐦‌𝐞‌ .

Contenu

Ajouter une colonne à un 𝐩‌𝐚‌𝐧‌𝐝‌𝐚‌𝐬‌.D𝐚‌𝐭‌𝐚‌F𝐫‌𝐚‌𝐦‌𝐞‌
Ajouter une ligne à un 𝐩‌𝐚‌𝐧‌𝐝‌𝐚‌𝐬‌.D𝐚‌𝐭‌𝐚‌F𝐫‌𝐚‌𝐦‌𝐞‌
Remarque : ajouter un grand nombre de lignes ou de colonnes

Notez que la méthode 𝐚‌𝐩‌𝐩‌𝐞‌𝐧‌𝐝‌() a été déconseillée dans la version 1.4.0 et supprimée dans la version 2.0.0 .

Nouveautés de la version 1.4.0 (22 janvier 2022) — Documentation pandas 2.0.3

L’exemple de code de cet article utilise la version 2.0.3 de pandas .

import pandas as pd print(pd.__version__) # 2.0.3

source : pandas_add_column.py

Ajouter une colonne à un 𝐩‌𝐚‌𝐧‌𝐝‌𝐚‌𝐬‌.D𝐚‌𝐭‌𝐚‌F𝐫‌𝐚‌𝐦‌𝐞‌

Ajouter une colonne en utilisant la notation entre crochets []

Vous pouvez sélectionner une colonne à l’aide de [𝐜‌𝐨‌𝐥‌𝐮‌𝐦‌𝐧‌_𝐧‌𝐚‌𝐦‌𝐞‌] et lui attribuer des valeurs.

pandas : Sélectionner des lignes/colonnes par index (numéros et noms)

df = pd.DataFrame({'A': ['A1', 'A2', 'A3'], 'B': ['B1', 'B2', 'B3'], 'C': ['C1', 'C2', 'C3']}, index=['ONE', 'TWO', 'THREE']) print(df) # A B C # ONE A1 B1 C1 # TWO A2 B2 C2 # THREE A3 B3 C3 df['A'] = 0 print(df) # A B C # ONE 0 B1 C1 # TWO 0 B2 C2 # THREE 0 B3 C3

source : pandas_add_column.py

Si vous spécifiez un nom de colonne inexistant, une nouvelle colonne sera ajoutée avec la valeur attribuée.

Attribuer une valeur évolutive

Lorsqu’une valeur scalaire est attribuée, tous les éléments de la colonne sont définis sur cette valeur.

df['D'] = 0 print(df) # A B C D # ONE 0 B1 C1 0 # TWO 0 B2 C2 0 # THREE 0 B3 C3 0

source : pandas_add_column.py

Affecter un objet de type tableau

Si un objet de type tableau tel qu’une liste ou un tableau NumPy 𝐧‌𝐝‌𝐚‌𝐫‌𝐫‌𝐚‌𝐲‌ est affecté, chaque élément est affecté directement. Notez qu’une incompatibilité entre le nombre d’éléments de la liste et le nombre de lignes entraînera une erreur.

df['E'] = [0, 1, 2] print(df) # A B C D E # ONE 0 B1 C1 0 0 # TWO 0 B2 C2 0 1 # THREE 0 B3 C3 0 2 # df['F'] = [0, 1, 2, 3] # ValueError: Length of values does not match length of index

source : pandas_add_column.py

Attribuez un 𝐩‌𝐚‌𝐧‌𝐝‌𝐚‌𝐬‌.S𝐞‌𝐫‌𝐢‌𝐞‌𝐬‌

Vous pouvez également attribuer un S𝐞‌𝐫‌𝐢‌𝐞‌𝐬‌ .

Étant donné que chaque colonne d’un D𝐚‌𝐭‌𝐚‌F𝐫‌𝐚‌𝐦‌𝐞‌ est traitée comme un S𝐞‌𝐫‌𝐢‌𝐞‌𝐬‌ , vous pouvez ajouter de nouvelles colonnes en fonction des résultats des opérations ou des résultats. traités. de ces méthodes.

pandas : gérer les chaînes (remplacer, supprimer, conversion de casse, etc.)

df['F'] = df['B'] + df['C'] df['G'] = df['B'].str.lower() print(df) # A B C D E F G # ONE 0 B1 C1 0 0 B1C1 b1 # TWO 0 B2 C2 0 1 B2C2 b2 # THREE 0 B3 C3 0 2 B3C3 b3

source : pandas_add_column.py

Si l’étiquette d’index du S𝐞‌𝐫‌𝐢‌𝐞‌𝐬‌ ne correspond pas au nom de colonne du D𝐚‌𝐭‌𝐚‌F𝐫‌𝐚‌𝐦‌𝐞‌ , une valeur manquante N𝐚‌N est attribué.

Valeurs manquantes dans pandas (nan, None, pd.NA)

s = pd.Series(['X2', 'X3', 'X4'], index=['TWO', 'THREE', 'FOUR'], name='X') print(s) # TWO X2 # THREE X3 # FOUR X4 # Name: X, dtype: object df['H'] = s print(df) # A B C D E F G H # ONE 0 B1 C1 0 0 B1C1 b1 NaN # TWO 0 B2 C2 0 1 B2C2 b2 X2 # THREE 0 B3 C3 0 2 B3C3 b3 X3

source : pandas_add_column.py

L’attribut 𝐯‌𝐚‌𝐥‌𝐮‌𝐞‌𝐬‌ d’un S𝐞‌𝐫‌𝐢‌𝐞‌𝐬‌ renvoie un tableau NumPy 𝐧‌𝐝‌𝐚‌𝐫‌𝐫𝐚‌𝐲‌ , traité comme un objet de type tableau. Les éléments sont attribués dans l’ordre, quel que soit le 𝐢‌𝐧‌𝐝‌𝐞‌𝐱‌ . Notez qu’une erreur se produit si le nombre d’éléments ne correspond pas au nombre de lignes.

Convertir pandas.DataFrame, Series et numpy.ndarray entre eux

print(s.values) # ['X2' 'X3' 'X4'] df['I'] = s.values print(df) # A B C D E F G H I # ONE 0 B1 C1 0 0 B1C1 b1 NaN X2 # TWO 0 B2 C2 0 1 B2C2 b2 X2 X3 # THREE 0 B3 C3 0 2 B3C3 b3 X3 X4

source : pandas_add_column.py

La méthode 𝐩‌𝐚‌𝐧‌𝐝‌𝐚‌𝐬‌.D𝐚‌𝐭‌𝐚‌F 𝐫‌𝐚‌𝐦‌𝐞‌.𝐚‌𝐬‌𝐬𝐢‌𝐠‌𝐧‌()

La méthode 𝐚‌𝐬‌𝐬‌𝐢‌𝐠‌𝐧‌() ajoute une nouvelle colonne ou attribue de nouvelles valeurs à une colonne existante.

pandas.DataFrame.assign — documentation de pandas 2.0.3

Vous pouvez préciser le nom de la colonne et sa valeur à l’aide de la structure d’argument de mot-clé, . . . . . . . .

Si le nom de la colonne existe, la méthode lui attribue la valeur. Si le nom de la colonne est nouveau, elle ajoute une nouvelle colonne. Cette méthode renvoie un nouvel objet, tandis que l’objet d’origine reste identique.

df = pd.DataFrame({'A': ['A1', 'A2', 'A3'], 'B': ['B1', 'B2', 'B3'], 'C': ['C1', 'C2', 'C3']}, index=['ONE', 'TWO', 'THREE']) print(df.assign(A=0)) # A B C # ONE 0 B1 C1 # TWO 0 B2 C2 # THREE 0 B3 C3 print(df.assign(D=0)) # A B C D # ONE A1 B1 C1 0 # TWO A2 B2 C2 0 # THREE A3 B3 C3 0 print(df) # A B C # ONE A1 B1 C1 # TWO A2 B2 C2 # THREE A3 B3 C3

source : pandas_add_column.py

Tout comme lorsque vous ajoutez une colonne avec [𝐜‌𝐨‌𝐥‌𝐮‌𝐦‌𝐧‌_𝐧‌𝐚‌𝐦‌𝐞‌] , vous pouvez définir des listes ou des S𝐞‌𝐫‌𝐢‌𝐞‌𝐬‌ avec la méthode 𝐚‌𝐬‌𝐬𝐢‌𝐠‌𝐧‌() . Vous pouvez également ajouter/affecter plusieurs colonnes simultanément en spécifiant plusieurs arguments de mot-clé.

s = pd.Series(['X2', 'X3', 'X4'], index=['TWO', 'THREE', 'FOUR'], name='X') print(s) # TWO X2 # THREE X3 # FOUR X4 # Name: X, dtype: object df_new = df.assign(C='XXX', D=0, E=[0, 1, 2], F=s, G=s.values, H=df['A'] + df['B']) print(df_new) # A B C D E F G H # ONE A1 B1 XXX 0 0 NaN X2 A1B1 # TWO A2 B2 XXX 0 1 X2 X3 A2B2 # THREE A3 B3 XXX 0 2 X3 X4 A3B3

source : pandas_add_column.py

Notez que dans la méthode 𝐚‌𝐬‌𝐬‌𝐢‌𝐠‌𝐧‌() , vous spécifiez le nom de la colonne comme argument de mot-clé. Par conséquent, les noms qui ne sont pas valides comme noms d’argument, tels que ceux avec des symboles autres que des traits de soulignement _ et des mots réservés, entraîneront une erreur. Pour plus d’informations sur les noms d’arguments acceptables en Python, reportez-vous à l’article suivant.

Noms de variables valides et règles de dénomination en Python

La méthode 𝐩‌𝐚‌𝐧‌𝐝‌𝐚‌𝐬‌.D𝐚‌𝐭‌𝐚‌F𝐫 ‌𝐚‌𝐦‌𝐞‌.𝐢‌𝐧‌𝐬‌𝐞‌𝐫‌𝐭‌()

La méthode 𝐢‌𝐧‌𝐬‌𝐞‌𝐫‌𝐭‌() vous permet d’ajouter une colonne à n’importe quelle position dans un D𝐚‌𝐭‌𝐚‌F𝐫‌𝐚‌𝐦‌𝐞‌ .

pandas.DataFrame.insert — documentation de pandas 2.0.3

Spécifiez la position comme premier argument, le nom de la colonne comme deuxième et la valeur à attribuer comme troisième.

Le troisième argument peut accepter une valeur scalaire, un objet de type tableau tel qu’une liste ou un S𝐞‌𝐫‌𝐢‌𝐞‌𝐬‌ . Le concept est similaire aux exemples précédents.

Le D𝐚‌𝐭‌𝐚‌F𝐫‌𝐚‌𝐦‌𝐞‌ original est directement mis à jour.

df = pd.DataFrame({'A': ['A1', 'A2', 'A3'], 'B': ['B1', 'B2', 'B3'], 'C': ['C1', 'C2', 'C3']}, index=['ONE', 'TWO', 'THREE']) s = pd.Series(['X2', 'X3', 'X4'], index=['TWO', 'THREE', 'FOUR'], name='X') df.insert(2, 'X', 0) print(df) # A B X C # ONE A1 B1 0 C1 # TWO A2 B2 0 C2 # THREE A3 B3 0 C3 df.insert(0, 'Y', s) print(df) # Y A B X C # ONE NaN A1 B1 0 C1 # TWO X2 A2 B2 0 C2 # THREE X3 A3 B3 0 C3

source : pandas_add_column.py

Notez que la spécification d’une valeur dépasse le nombre de lignes comme premier argument provoquera une erreur. L’utilisation d’une valeur négative pour préciser la position à partir de la fin n’est pas autorisée. Pour indiquer la fin comme position de la nouvelle colonne, utilisez 𝐥‌𝐞‌𝐧‌(𝐝‌𝐟‌.𝐜‌𝐨‌𝐥‌𝐮‌𝐦‌𝐧‌𝐬‌) ou 𝐝‌𝐟‌.𝐬‌𝐡‌𝐚‌𝐩‌𝐞‌[1] pour obtenir le nombre de colonnes existantes.

pandas : Obtenir le nombre de lignes, de colonnes, d’éléments (taille) du DataFrame

# df.insert(10, 'Z', 10) # IndexError: index 10 is out of bounds for axis 0 with size 5 # df.insert(-1, 'Z', 10) # ValueError: unbounded slice

source : pandas_add_column.py

De plus, l’attribution d’un nom de colonne existant comme deuxième argument entraînera une erreur. Bien qu’il soit possible d’autoriser les doublons en définissant l’argument 𝐚‌𝐥‌𝐥‌𝐨‌𝐰‌_𝐝‌𝐮‌𝐩‌𝐥‌𝐢‌𝐜‌𝐚‌𝐭‌𝐞‌𝐬‌ sur T𝐫‌𝐮‌𝐞‌ , cela n’est pas recommandé en raison de la confusion potentielle provoquée par les noms de colonnes en double.

# df.insert(0, 'Y', 10) # ValueError: cannot insert Y, already exists df.insert(0, 'Y', 10, allow_duplicates=True) print(df) # Y Y A B X C # ONE 10 NaN A1 B1 0 C1 # TWO 10 X2 A2 B2 0 C2 # THREE 10 X3 A3 B3 0 C3

source : pandas_add_column.py

La fonction 𝐩‌𝐚‌𝐧‌𝐝‌𝐚‌𝐬‌.𝐜‌𝐨‌𝐧‌𝐜‌𝐚‌𝐭‌()

Vous pouvez concaténer plusieurs objets D𝐚‌𝐭‌𝐚‌F𝐫‌𝐚‌𝐦‌𝐞‌ et S𝐞‌𝐫‌𝐢‌𝐞‌𝐬‌ à l’aide de la fonction 𝐜‌𝐨‌𝐧‌𝐜‌𝐚‌𝐭‌() .

pandas : concaténer plusieurs DataFrame/Series avec concat()

En concaténant un S𝐞‌𝐫‌𝐢‌𝐞‌𝐬‌ à un D𝐚‌𝐭‌𝐚‌F𝐫‌𝐚‌𝐦‌𝐞‌ , vous pouvez ajouter une nouvelle colonne.

Dans les exemples précédents, lors de l’ajout d’un S𝐞‌𝐫‌𝐢‌𝐞‌𝐬‌ , son attribut 𝐧‌𝐚‌𝐦‌𝐞‌ a été ignoré. Cependant, lors de la concaténation horizontale avec la fonction 𝐜‌𝐨‌𝐧‌𝐜‌𝐚‌𝐭‌() avec 𝐚‌𝐱‌𝐢‌𝐬‌=1 , le 𝐧‌𝐚‌𝐦‌𝐞‌ du S𝐞‌𝐫‌𝐢‌𝐞‌𝐬‌ est utilisé comme nom de colonne.

Spécifiez une liste ou un tuple d’objets que vous souhaitez concaténer comme premier argument de 𝐜‌𝐨‌𝐧‌𝐜‌𝐚‌𝐭‌() .

df = pd.DataFrame({'A': ['A1', 'A2', 'A3'], 'B': ['B1', 'B2', 'B3'], 'C': ['C1', 'C2', 'C3']}, index=['ONE', 'TWO', 'THREE']) s = pd.Series(['X2', 'X3', 'X4'], index=['TWO', 'THREE', 'FOUR'], name='X') print(pd.concat([df, s], axis=1)) # A B C X # ONE A1 B1 C1 NaN # TWO A2 B2 C2 X2 # THREE A3 B3 C3 X3 # FOUR NaN NaN NaN X4

source : pandas_add_column.py

Pour conserver uniquement les lignes partageant des indices communs, spécifiquesz 𝐣‌𝐨‌𝐢‌𝐧‌=’𝐢‌𝐧‌𝐧‌𝐞‌𝐫‌’ .

print(pd.concat([df, s], axis=1, join='inner')) # A B C X # TWO A2 B2 C2 X2 # THREE A3 B3 C3 X3

source : pandas_add_column.py

La fonction vous permet de concaténer plusieurs objets S𝐞‌𝐫‌𝐢‌𝐞‌𝐬‌ et D𝐚‌𝐭‌𝐚‌F𝐫‌𝐚‌𝐦‌𝐞‌ .

s1 = pd.Series(['X1', 'X2', 'X3'], index=df.index, name='X') s2 = pd.Series(['Y1', 'Y2', 'Y3'], index=df.index, name='Y') df2 = pd.DataFrame({'df_col1': 0, 'df_col2': range(3)}, index=df.index) print(pd.concat([df, s1, s2, df2], axis=1)) # A B C X Y df_col1 df_col2 # ONE A1 B1 C1 X1 Y1 0 0 # TWO A2 B2 C2 X2 Y2 0 1 # THREE A3 B3 C3 X3 Y3 0 2

source : pandas_add_column.py

Ajouter une ligne à un 𝐩‌𝐚‌𝐧‌𝐝‌𝐚‌𝐬‌.D𝐚‌𝐭‌𝐚‌F𝐫‌𝐚‌𝐦‌𝐞‌

Ajouter une ligne en utilisant .𝐥‌𝐨‌𝐜‌[]

Vous pouvez sélectionner une ligne en utilisant 𝐥‌𝐨‌𝐜‌[𝐫‌𝐨‌𝐰‌_𝐧‌𝐚‌𝐦‌𝐞‌] et lui attribuer des valeurs.

pandas : obtenir/définir des valeurs avec loc, iloc, at, iat

df = pd.DataFrame({'A': ['A1', 'A2', 'A3'], 'B': ['B1', 'B2', 'B3'], 'C': ['C1', 'C2', 'C3']}, index=['ONE', 'TWO', 'THREE']) print(df) # A B C # ONE A1 B1 C1 # TWO A2 B2 C2 # THREE A3 B3 C3 df.loc['ONE'] = 0 print(df) # A B C # ONE 0 0 0 # TWO A2 B2 C2 # THREE A3 B3 C3

source : pandas_add_row.py

Comme pour les colonnes, en spécifiant un nom de ligne inexistant, vous pouvez ajouter la ligne et lui attribuer des valeurs.

L’approche est la même que pour les colonnes. Vous pouvez attribuer une valeur scalaire ou un objet de type tableau.

df.loc['FOUR'] = 0 df.loc['FIVE'] = ['A5', 'B5', 'C5'] print(df) # A B C # ONE 0 0 0 # TWO A2 B2 C2 # THREE A3 B3 C3 # FOUR 0 0 0 # FIVE A5 B5 C5

source : pandas_add_row.py

Pour les objets de type tableau, assurez-vous que le nombre d’éléments correspond au nombre de colonnes ; sinon, cela provoquera une erreur.

# df.loc['SIX'] = ['A6', 'B6'] # ValueError: cannot set a row with mismatched columns

source : pandas_add_row.py

Comme les colonnes, S𝐞‌𝐫‌𝐢‌𝐞‌𝐬‌ peut également être assigné aux lignes. Si les étiquettes ne correspondent pas, les valeurs manquantes N𝐚‌N sont attribuées. Si vous souhaitez ignorer les étiquettes, vous pouvez utiliser 𝐯‌𝐚‌𝐥‌𝐮‌𝐞‌𝐬‌ pour convertir en tableau NumPy 𝐧‌𝐝‌𝐚‌𝐫‌𝐫‌𝐚‌𝐲‌ .

s = pd.Series(['B6', 'C6', 'D6'], index=['B', 'C', 'D'], name='SIX') print(s) # B B6 # C C6 # D D6 # Name: SIX, dtype: object df.loc['XXX'] = df.loc['TWO'] + df.loc['THREE'] df.loc['YYY'] = s df.loc['ZZZ'] = s.values print(df) # A B C # ONE 0 0 0 # TWO A2 B2 C2 # THREE A3 B3 C3 # FOUR 0 0 0 # FIVE A5 B5 C5 # XXX A2A3 B2B3 C2C3 # YYY NaN B6 C6 # ZZZ B6 C6 D6

source : pandas_add_row.py

La méthode 𝐩‌𝐚‌𝐧‌𝐝‌𝐚‌𝐬‌.D𝐚‌𝐭‌𝐚‌F𝐫 ‌𝐚‌𝐦‌𝐞‌.𝐚‌𝐩‌𝐩‌𝐞‌𝐧‌𝐝‌() (obsolète dans la version 1.4.0 )

La méthode 𝐚‌𝐩‌𝐩‌𝐞‌𝐧‌𝐝‌() était autrefois utilisée pour ajouter de nouvelles lignes à D𝐚‌𝐭‌𝐚‌F𝐫‌𝐚‌𝐦‌𝐞‌ . Cependant, cette méthode a été déconseillée dans la version 1.4.0 et supprimée dans la version 2.0.0 .

Dans les notes de version, il est recommandé d’utiliser plutôt la fonction 𝐩‌𝐚‌𝐧‌𝐝‌𝐚‌𝐬‌.𝐜‌𝐨‌𝐧‌𝐜‌𝐚‌𝐭‌() .

La fonction 𝐩‌𝐚‌𝐧‌𝐝‌𝐚‌𝐬‌.𝐜‌𝐨‌𝐧‌𝐜‌𝐚‌𝐭‌()

pandas : concaténer plusieurs DataFrame/Series avec concat()

Spécifiez une liste ou un tuple d’objets que vous souhaitez concaténer comme premier argument de 𝐜‌𝐨‌𝐧‌𝐜‌𝐚‌𝐭‌() . Par défaut, ils sont concaténés verticalement.

df1 = pd.DataFrame({'A': ['A1', 'A2', 'A3'], 'B': ['B1', 'B2', 'B3'], 'C': ['C1', 'C2', 'C3']}, index=['ONE', 'TWO', 'THREE']) print(df1) # A B C # ONE A1 B1 C1 # TWO A2 B2 C2 # THREE A3 B3 C3 df2 = pd.DataFrame({'B': ['B4', 'B5'], 'C': ['C4', 'C5'], 'D': ['D4', 'D5']}, index=['FOUR', 'FIVE']) print(df2) # B C D # FOUR B4 C4 D4 # FIVE B5 C5 D5 print(pd.concat([df1, df2])) # A B C D # ONE A1 B1 C1 NaN # TWO A2 B2 C2 NaN # THREE A3 B3 C3 NaN # FOUR NaN B4 C4 D4 # FIVE NaN B5 C5 D5

source : pandas_add_row.py

Pour conserver uniquement les colonnes qui partagent des noms communs, spécifiquesz 𝐣‌𝐨‌𝐢‌𝐧‌=’𝐢‌𝐧‌𝐧‌𝐞‌𝐫‌’ .

print(pd.concat([df1, df2], join='inner')) # B C # ONE B1 C1 # TWO B2 C2 # THREE B3 C3 # FOUR B4 C4 # FIVE B5 C5

source : pandas_add_row.py

Vous devez faire preuve de prudence lorsque vous concaténez D𝐚‌𝐭‌𝐚‌F𝐫‌𝐚‌𝐦‌𝐞‌ et S𝐞‌𝐫‌𝐢‌𝐞‌𝐬‌ verticalement.

Par défaut, cela ressemble à ceci.

s = pd.Series(['A4', 'B4', 'C4'], index=['A', 'B', 'C'], name='FOUR') print(s) # A A4 # B B4 # C C4 # Name: FOUR, dtype: object print(pd.concat([df1, s])) # A B C 0 # ONE A1 B1 C1 NaN # TWO A2 B2 C2 NaN # THREE A3 B3 C3 NaN # A NaN NaN NaN A4 # B NaN NaN NaN B4 # C NaN NaN NaN C4

source : pandas_add_row.py

En convertissant S𝐞‌𝐫‌𝐢‌𝐞‌𝐬‌ en D𝐚‌𝐭‌𝐚‌F𝐫‌𝐚‌𝐦‌𝐞‌ avec la méthode 𝐭‌𝐨‌_𝐟‌𝐫‌𝐚‌𝐦‌𝐞‌() et en la transposant avec T , vous obtenez un D𝐚‌𝐭‌𝐚‌F𝐫‌𝐚‌𝐦‌𝐞‌ sur une seule ligne. Vous pouvez concaténer ceci.

pandas : Transposer le DataFrame (échanger les lignes et les colonnes)

print(s.to_frame().T) # A B C # FOUR A4 B4 C4 print(pd.concat([df1, s.to_frame().T])) # A B C # ONE A1 B1 C1 # TWO A2 B2 C2 # THREE A3 B3 C3 # FOUR A4 B4 C4

source : pandas_add_row.py

Remarque : ajouter un grand nombre de lignes ou de colonnes

Il n’est pas recommandé d’ajouter un grand nombre de lignes ou de colonnes à un D𝐚‌𝐭‌𝐚‌F𝐫‌𝐚‌𝐦𝐞‌ individuellement en raison de l’inefficacité.

Par exemple, lorsque vous ajoutez une colonne à la fois dans une boucle 𝐟‌𝐨‌𝐫‌ , un message P𝐞‌𝐫‌𝐟‌𝐨‌𝐫‌𝐦‌𝐚‌𝐧‌𝐜‌𝐞‌W𝐚‌𝐫‌𝐧‌𝐢‌𝐧‌𝐠‌ est émis. Il semble être émis lorsque vous ajoutez plus de 100 colonnes.

df = pd.DataFrame() for i in range(101): df[i] = 0 # PerformanceWarning: DataFrame is highly fragmented. # This is usually the result of calling `frame.insert` many times, which has poor performance. # Consider joining all columns at once using pd.concat(axis=1) instead. # To get a de-fragmented frame, use `newframe = frame.copy()`

source : pandas_add_columns_rows.py

À moins que vous n’ayez besoin d’utiliser les fonctionnalités de D𝐚‌𝐭‌𝐚‌F𝐫‌𝐚‌𝐦‌𝐞‌ chaque fois que vous ajoutez une ligne ou une colonne, il est préférable de tout concaténer en une seule fois en utilisant 𝐜‌𝐨‌𝐧‌𝐜‌𝐚‌𝐭‌() , comme le suggère le message d’avertissement.

Une comparaison de la vitesse de traitement entre l’ajout un par un et l’ajout de tous en une seule fois sera introduite à la fin.

Ajouter plusieurs lignes à la fois

Prenons l’exemple suivant : D𝐚‌𝐭‌𝐚‌F𝐫‌𝐚‌𝐦‌𝐞‌ .

df = pd.DataFrame({'col1': [1, 2, 3], 'col2': [10, 20, 30], 'col3': [100, 200, 300]}, index=['row1', 'row2', 'row3']) print(df) # col1 col2 col3 # row1 1 10 100 # row2 2 20 200 # row3 3 30 300

source : pandas_add_columns_rows.py

Ajoutez les données et les noms de ligne pour chaque ligne dans des listes distinctes. Bien que le contenu soit simplement créé ici, dans le code réel, il est créé par un traitement de données.

l_data = [] l_label = [] for i in range(4, 7): l_data.append([i, i * 10, i * 100]) l_label.append(f'row{i}') print(l_data) # [[4, 40, 400], [5, 50, 500], [6, 60, 600]] print(l_label) # ['row4', 'row5', 'row6']

source : pandas_add_columns_rows.py

Créez un D𝐚‌𝐭‌𝐚‌F𝐫‌𝐚‌𝐦‌𝐞‌ à partir de ces listes et des noms de colonnes 𝐜‌𝐨‌𝐥‌𝐮‌𝐦‌𝐧‌𝐬‌ du D𝐚‌𝐭‌𝐚‌F𝐫‌𝐚‌𝐦‌𝐞‌ d’origine , et concaténez-le avec le D𝐚‌𝐭‌𝐚‌F𝐫‌𝐚‌𝐦‌𝐞‌ d’origine.

df_append = pd.DataFrame(l_data, index=l_label, columns=df.columns) print(df_append) # col1 col2 col3 # row4 4 40 400 # row5 5 50 500 # row6 6 60 600 df_result = pd.concat([df, df_append]) print(df_result) # col1 col2 col3 # row1 1 10 100 # row2 2 20 200 # row3 3 30 300 # row4 4 40 400 # row5 5 50 500 # row6 6 60 600

source : pandas_add_columns_rows.py

Ajouter plusieurs colonnes à la fois

Le concept est le même lors de l’ajout de colonnes que lors de l’ajout de lignes comme décrit ci-dessus.

Prenons l’exemple suivant : D𝐚‌𝐭‌𝐚‌F𝐫‌𝐚‌𝐦‌𝐞‌ .

df = pd.DataFrame({'col1': [1, 2, 3], 'col2': [10, 20, 30], 'col3': [100, 200, 300]}, index=['row1', 'row2', 'row3']) print(df) # col1 col2 col3 # row1 1 10 100 # row2 2 20 200 # row3 3 30 300

source : pandas_add_columns_rows.py

Ajoutez les données et les noms de colonnes pour chaque colonne dans des listes séparées.

l_data = [] l_label = [] for i in range(3, 6): l_data.append([10**i, 2 * 10**i, 3 * 10**i]) l_label.append(f'col{i + 1}') print(l_data) # [[1000, 2000, 3000], [10000, 20000, 30000], [100000, 200000, 300000]] print(l_label) # ['col4', 'col5', 'col6']

source : pandas_add_columns_rows.py

Créez un D𝐚‌𝐭‌𝐚‌F𝐫‌𝐚‌𝐦‌𝐞‌ à partir de ces listes et des noms de lignes 𝐢‌𝐧‌𝐝‌𝐞‌𝐱‌ du D𝐚‌𝐭‌𝐚‌F𝐫‌𝐚‌𝐦‌𝐞‌ d’origine , et concaténez-le avec le D𝐚‌𝐭‌𝐚‌F𝐫‌𝐚‌𝐦‌𝐞‌ d’origine. Notez que vous devez transposer la liste bidimensionnelle contenant les données.

Transposer une liste 2D en Python (échanger des lignes et des colonnes)

df_append = pd.DataFrame(zip(*l_data), index=df.index, columns=l_label) print(df_append) # col4 col5 col6 # row1 1000 10000 100000 # row2 2000 20000 200000 # row3 3000 30000 300000 df_result = pd.concat([df, df_append], axis=1) print(df_result) # col1 col2 col3 col4 col5 col6 # row1 1 10 100 1000 10000 100000 # row2 2 20 200 2000 20000 200000 # row3 3 30 300 3000 30000 300000

source : pandas_add_columns_rows.py

Comparaison de la vitesse de traitement

Comparez la vitesse de traitement entre l’ajout de lignes ou de colonnes une par une et leur ajout en une seule fois.

Les exemples suivants utilisent la commande magique Jupyter Notebook %%𝐭‌𝐢‌𝐦‌𝐞‌𝐢‌𝐭‌ . Notez que ces commandes ne fonctionneront pas si elles sont exécutées en tant que scripts Python.

Mesurer le temps d’exécution avec timeit en Python

Dans le cas de l’ajout de 1000 lignes :

%%timeit df_loc = pd.DataFrame([[0, 0, 0], [1, 1, 1], [2, 2, 2]]) for i in range(3, 1003): df_loc.loc[i] = [i] * 3 # 150 ms ± 4.67 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)

source : pandas_add_columns_rows_timeit.py

%%timeit df = pd.DataFrame([[0, 0, 0], [1, 1, 1], [2, 2, 2]]) l_data = [] l_label = [] for i in range(3, 1003): l_data.append([i] * 3) l_label.append(i) df_concat = pd.concat([df, pd.DataFrame(l_data, index=l_label, columns=df.columns)]) # 487 µs ± 12.5 µs per loop (mean ± std. dev. of 7 runs, 1,000 loops each)

source : pandas_add_columns_rows_timeit.py

Dans le cas de l’ajout de 1000 colonnes :

%%timeit df_index = pd.DataFrame([[0, 0, 0], [1, 1, 1], [2, 2, 2]]) for i in range(3, 1003): df_index[i] = [0, 1, 2] # 31.2 ms ± 578 µs per loop (mean ± std. dev. of 7 runs, 10 loops each)

source : pandas_add_columns_rows_timeit.py

%%timeit df = pd.DataFrame([[0, 0, 0], [1, 1, 1], [2, 2, 2]]) l_data = [] l_label = [] for i in range(3, 1003): l_data.append([0, 1, 2]) l_label.append(i) df_concat = pd.concat([df, pd.DataFrame(zip(*l_data), index=df.index, columns=l_label)], axis=1) # 3.56 ms ± 54.7 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)

source : pandas_add_columns_rows_timeit.py

Dans les deux cas, l’ajout de toutes les lignes ou colonnes en une seule fois s’avère nettement plus rapide.

Ajouter une colonne à un 𝐩‌𝐚‌𝐧‌𝐝‌𝐚‌𝐬‌.D𝐚‌𝐭‌𝐚‌F𝐫‌𝐚‌𝐦‌𝐞‌

Ajouter une colonne en utilisant la notation entre crochets []

Attribuer une valeur évolutive

Affecter un objet de type tableau

Attribuez un 𝐩‌𝐚‌𝐧‌𝐝‌𝐚‌𝐬‌.S𝐞‌𝐫‌𝐢‌𝐞‌𝐬‌

La méthode 𝐩‌𝐚‌𝐧‌𝐝‌𝐚‌𝐬‌.D𝐚‌𝐭‌𝐚‌F 𝐫‌𝐚‌𝐦‌𝐞‌.𝐚‌𝐬‌𝐬𝐢‌𝐠‌𝐧‌()

La méthode 𝐩‌𝐚‌𝐧‌𝐝‌𝐚‌𝐬‌.D𝐚‌𝐭‌𝐚‌F𝐫 ‌𝐚‌𝐦‌𝐞‌.𝐢‌𝐧‌𝐬‌𝐞‌𝐫‌𝐭‌()

La fonction 𝐩‌𝐚‌𝐧‌𝐝‌𝐚‌𝐬‌.𝐜‌𝐨‌𝐧‌𝐜‌𝐚‌𝐭‌()

Ajouter une ligne à un 𝐩‌𝐚‌𝐧‌𝐝‌𝐚‌𝐬‌.D𝐚‌𝐭‌𝐚‌F𝐫‌𝐚‌𝐦‌𝐞‌

Ajouter une ligne en utilisant .𝐥‌𝐨‌𝐜‌[]

La méthode 𝐩‌𝐚‌𝐧‌𝐝‌𝐚‌𝐬‌.D𝐚‌𝐭‌𝐚‌F𝐫 ‌𝐚‌𝐦‌𝐞‌.𝐚‌𝐩‌𝐩‌𝐞‌𝐧‌𝐝‌() (obsolète dans la version 1.4.0 )

La fonction 𝐩‌𝐚‌𝐧‌𝐝‌𝐚‌𝐬‌.𝐜‌𝐨‌𝐧‌𝐜‌𝐚‌𝐭‌()

Remarque : ajouter un grand nombre de lignes ou de colonnes

Ajouter plusieurs lignes à la fois

Ajouter plusieurs colonnes à la fois

Comparaison de la vitesse de traitement

Sujets similaires: