▷ 205 | ApprendrePython

Cet article explique comment convertir entre 𝐩‌𝐚‌𝐧‌𝐝‌𝐚‌𝐬‌.D𝐚‌𝐭‌𝐚‌F𝐫‌𝐚‌𝐦‌𝐞‌ et 𝐩‌𝐚‌𝐧‌𝐝‌𝐚‌𝐬‌.S𝐞‌𝐫‌𝐢‌𝐞‌𝐬‌ .

Bien que le terme « convertir » soit utilisé par commodité, il fait en réalité référence au processus de génération d’un D𝐚‌𝐭‌𝐚‌F𝐫‌𝐚‌𝐦‌𝐞‌ à partir d’un S𝐞‌𝐫‌𝐢‌𝐞‌𝐬‌ , ou de récupération d’une colonne ou d’une ligne d’un D𝐚‌𝐭‌𝐚‌F𝐫‌𝐚‌𝐦‌𝐞‌ en tant que S𝐞‌𝐫‌𝐢‌𝐞‌𝐬‌ .

Contenu

Convertir S𝐞‌𝐫‌𝐢‌𝐞‌𝐬‌ en D𝐚‌𝐭‌𝐚‌F𝐫‌𝐚‌𝐦‌𝐞‌
- 𝐭‌𝐨‌_𝐟‌𝐫‌𝐚‌𝐦‌𝐞‌()
- 𝐩‌𝐝‌.D𝐚‌𝐭‌𝐚‌F𝐫‌𝐚‌𝐦‌𝐞‌()
Générer D𝐚‌𝐭‌𝐚‌F𝐫‌𝐚‌𝐦‌𝐞‌ à partir de plusieurs S𝐞‌𝐫‌𝐢‌𝐞‌𝐬‌
Convertir D𝐚‌𝐭‌𝐚‌F𝐫‌𝐚‌𝐦‌𝐞‌ en S𝐞‌𝐫‌𝐢‌𝐞‌𝐬‌
- Récupérer les colonnes D𝐚‌𝐭‌𝐚‌F𝐫‌𝐚‌𝐦‌𝐞‌ sous forme de S𝐞‌𝐫‌𝐢‌𝐞‌𝐬‌
- Récupérer les lignes D𝐚‌𝐭‌𝐚‌F𝐫‌𝐚‌𝐦‌𝐞‌ sous forme de S𝐞‌𝐫‌𝐢‌𝐞‌𝐬‌
Vues et copies
- Convertir S𝐞‌𝐫‌𝐢‌𝐞‌𝐬‌ en D𝐚‌𝐭‌𝐚‌F𝐫‌𝐚‌𝐦‌𝐞‌
- Convertir D𝐚‌𝐭‌𝐚‌F𝐫‌𝐚‌𝐦‌𝐞‌ en S𝐞‌𝐫‌𝐢‌𝐞‌𝐬‌

Il est important de noter, comme expliqué à la fin, que les objets d’origine et les objets générés ou récupérés peuvent partager la mémoire. Par conséquent, la modification d’une valeur dans l’un peut affecter l’autre.

Pour convertir D𝐚‌𝐭‌𝐚‌F𝐫‌𝐚‌𝐦‌𝐞‌ et S𝐞‌𝐫‌𝐢‌𝐞‌𝐬‌ vers et depuis les tableaux NumPy ( 𝐧‌𝐝‌𝐚‌𝐫‌𝐫‌𝐚‌𝐲‌ ) et les listes intégrées de Python, reportez-vous aux articles suivants.

La version de pandas utilisée dans cet article est la suivante. Notez que les fonctionnalités peuvent varier selon les versions.

import pandas as pd print(pd.__version__) # 2.1.4

source : pandas_series_to_dataframe.py

Convertir S𝐞‌𝐫‌𝐢‌𝐞‌𝐬‌ en D𝐚‌𝐭‌𝐚‌F𝐫‌𝐚‌𝐦‌𝐞‌

Pour convertir un S𝐞‌𝐫‌𝐢‌𝐞‌𝐬‌ en D𝐚‌𝐭‌𝐚‌F𝐫‌𝐚‌𝐦‌𝐞‌ , utilisez la méthode 𝐭‌𝐨‌_𝐟‌𝐫‌𝐚‌𝐦‌𝐞‌() ou le constructeur 𝐩‌𝐝‌.D𝐚‌𝐭‌𝐚‌F𝐫‌𝐚‌𝐦‌𝐞‌() .

𝐭‌𝐨‌_𝐟‌𝐫‌𝐚‌𝐦‌𝐞‌()

La méthode 𝐭‌𝐨‌_𝐟‌𝐫‌𝐚‌𝐦‌𝐞‌() renvoie une valeur D𝐚‌𝐭‌𝐚‌F𝐫‌𝐚‌𝐦‌𝐞‌ avec la colonne appelante S𝐞‌𝐫‌𝐢‌𝐞‌𝐬‌ . Un nom de colonne peut être spécifié comme premier argument.

pandas.Series.to_frame — documentation de pandas 2.1.4

s = pd.Series([0, 1, 2], index=['A', 'B', 'C']) print(s) # A 0 # B 1 # C 2 # dtype: int64 print(s.to_frame()) # 0 # A 0 # B 1 # C 2 print(s.to_frame('X')) # X # A 0 # B 1 # C 2

source : pandas_series_to_dataframe.py

Si l’attribut 𝐧‌𝐚‌𝐦‌𝐞‌ est défini pour S𝐞‌𝐫‌𝐢‌𝐞‌𝐬‌ , il devient le nom de la colonne. Si un premier argument est spécifié dans 𝐭‌𝐨‌_𝐟‌𝐫‌𝐚‌𝐦‌𝐞‌() , il a la priorité.

s_name = pd.Series([0, 1, 2], index=['A', 'B', 'C'], name='X') print(s_name) # A 0 # B 1 # C 2 # Name: X, dtype: int64 print(s_name.to_frame()) # X # A 0 # B 1 # C 2 print(s_name.to_frame('Y')) # Y # A 0 # B 1 # C 2

source : pandas_series_to_dataframe.py

𝐩‌𝐝‌.D𝐚‌𝐭‌𝐚‌F𝐫‌𝐚‌𝐦‌𝐞‌()

Passer un S𝐞‌𝐫‌𝐢‌𝐞‌𝐬‌ au constructeur 𝐩‌𝐝‌.D𝐚‌𝐭‌𝐚‌F𝐫‌𝐚‌𝐦‌𝐞‌() crée un D𝐚‌𝐭‌𝐚‌F𝐫‌𝐚‌𝐦‌𝐞‌ avec le S𝐞‌𝐫‌𝐢‌𝐞‌𝐬‌ comme colonne, tout en passant une liste de S𝐞‌𝐫‌𝐢‌𝐞‌𝐬‌ crée un D𝐚‌𝐭‌𝐚‌F𝐫‌𝐚‌𝐦‌𝐞‌ avec les S𝐞‌𝐫‌𝐢‌𝐞‌𝐬‌ comme lignes.

pandas.DataFrame — documentation de pandas 2.1.4

s = pd.Series([0, 1, 2], index=['A', 'B', 'C']) print(s) # A 0 # B 1 # C 2 # dtype: int64 print(pd.DataFrame(s)) # 0 # A 0 # B 1 # C 2 print(pd.DataFrame([s])) # A B C # 0 0 1 2

source : pandas_series_to_dataframe.py

Si l’attribut 𝐧‌𝐚‌𝐦‌𝐞‌ est défini pour S𝐞‌𝐫‌𝐢‌𝐞‌𝐬‌ , il devient le nom de la colonne ou de la ligne.

s_name = pd.Series([0, 1, 2], index=['A', 'B', 'C'], name='X') print(s_name) # A 0 # B 1 # C 2 # Name: X, dtype: int64 print(pd.DataFrame(s_name)) # X # A 0 # B 1 # C 2 print(pd.DataFrame([s_name])) # A B C # X 0 1 2

source : pandas_series_to_dataframe.py

Générer D𝐚‌𝐭‌𝐚‌F𝐫‌𝐚‌𝐦‌𝐞‌ à partir de plusieurs S𝐞‌𝐫‌𝐢‌𝐞‌𝐬‌

Un D𝐚‌𝐭‌𝐚‌F𝐫‌𝐚‌𝐦‌𝐞‌ peut être généré à partir de plusieurs S𝐞‌𝐫‌𝐢‌𝐞‌𝐬‌ en utilisant soit le constructeur 𝐩‌𝐝‌.D𝐚‌𝐭‌𝐚‌F𝐫‌𝐚‌𝐦‌𝐞‌(), soit la fonction 𝐩‌𝐝‌.𝐜‌𝐨‌𝐧‌𝐜‌𝐚‌𝐭‌() . L’exemple suivant utilise deux S𝐞‌𝐫‌𝐢‌𝐞‌𝐬‌ , mais le même processus s’applique lors de l’utilisation de trois S𝐞‌𝐫‌𝐢‌𝐞‌𝐬‌ ou plus .

Lorsque les index sont communs

Voici un exemple d’utilisation du constructeur 𝐩‌𝐝‌.D𝐚‌𝐭‌𝐚‌F𝐫‌𝐚‌𝐦‌𝐞‌() . Notez que la conversion de type implicite se produit lorsque des S𝐞‌𝐫‌𝐢‌𝐞‌𝐬‌ de différents types de données ( 𝐝‌𝐭‌𝐲‌𝐩‌𝐞‌ ) sont utilisés comme lignes.

s1 = pd.Series([0, 1, 2], index=['A', 'B', 'C']) s2 = pd.Series([0.0, 0.1, 0.2], index=['A', 'B', 'C']) print(pd.DataFrame({'col1': s1, 'col2': s2})) # col1 col2 # A 0 0.0 # B 1 0.1 # C 2 0.2 print(pd.DataFrame([s1, s2])) # A B C # 0 0.0 1.0 2.0 # 1 0.0 0.1 0.2

source : pandas_series_to_dataframe.py

Vous pouvez également utiliser la fonction 𝐩‌𝐝‌.𝐜‌𝐨‌𝐧‌𝐜‌𝐚‌𝐭‌() .

pandas : concaténer plusieurs DataFrame/Series avec concat()

print(pd.concat([s1, s2], axis=1)) # 0 1 # A 0 0.0 # B 1 0.1 # C 2 0.2

source : pandas_series_to_dataframe.py

Si les attributs 𝐧‌𝐚‌𝐦‌𝐞‌ sont définis pour le S𝐞‌𝐫‌𝐢‌𝐞‌𝐬‌ d’origine , ils seront utilisés comme noms de colonnes ou de lignes dans le D𝐚‌𝐭‌𝐚‌F𝐫‌𝐚‌𝐦‌𝐞‌ résultante . Notez que les noms de colonnes doivent être précisés lors de l’utilisation d’un dictionnaire pour préciser les données dans le constructeur.

s1_name = pd.Series([0, 1, 2], index=['A', 'B', 'C'], name='X') s2_name = pd.Series([0.0, 0.1, 0.2], index=['A', 'B', 'C'], name='Y') print(pd.DataFrame({s1_name.name: s1_name, s2_name.name: s2_name})) # X Y # A 0 0.0 # B 1 0.1 # C 2 0.2 print(pd.DataFrame([s1_name, s2_name])) # A B C # X 0.0 1.0 2.0 # Y 0.0 0.1 0.2 print(pd.concat([s1_name, s2_name], axis=1)) # X Y # A 0 0.0 # B 1 0.1 # C 2 0.2

source : pandas_series_to_dataframe.py

Lorsque les index sont différents

Un D𝐚‌𝐭‌𝐚‌F𝐫‌𝐚‌𝐦‌𝐞‌ est généré en fonction des index de S𝐞‌𝐫‌𝐢‌𝐞‌𝐬‌ . Si S𝐞‌𝐫‌𝐢‌𝐞‌𝐬‌ ont des index différents, des valeurs manquantes ( N𝐚‌N ) se produiront.

s1 = pd.Series([0, 1, 2], index=['A', 'B', 'C']) s3 = pd.Series([0.1, 0.2, 0.3], index=['B', 'C', 'D']) print(pd.DataFrame({'col1': s1, 'col3': s3})) # col1 col3 # A 0.0 NaN # B 1.0 0.1 # C 2.0 0.2 # D NaN 0.3 print(pd.DataFrame([s1, s3])) # A B C D # 0 0.0 1.0 2.0 NaN # 1 NaN 0.1 0.2 0.3 print(pd.concat([s1, s3], axis=1)) # 0 1 # A 0.0 NaN # B 1.0 0.1 # C 2.0 0.2 # D NaN 0.3

source : pandas_series_to_dataframe.py

Pour gérer les valeurs manquantes dans pandas, reportez-vous à l’article suivant.

Valeurs manquantes dans pandas (nan, None, pd.NA)

L’utilisation de 𝐩‌𝐝‌.𝐜‌𝐨‌𝐧‌𝐜‌𝐚‌𝐭‌() avec 𝐣‌𝐨‌𝐢‌𝐧‌=’𝐢‌𝐧‌𝐧‌𝐞‌𝐫‌’ conserve uniquement les index communs.

pandas : concaténer plusieurs DataFrame/Series avec concat()

print(pd.concat([s1, s3], axis=1, join='inner')) # 0 1 # B 1 0.1 # C 2 0.2

source : pandas_series_to_dataframe.py

Pour modifier les index, utilisez des méthodes telles que 𝐬‌𝐞‌𝐭‌_𝐚‌𝐱‌𝐢‌𝐬‌() .

pandas : renommer les noms de colonnes/index du DataFrame

print(s3.set_axis(s1.index)) # A 0.1 # B 0.2 # C 0.3 # dtype: float64 print(pd.DataFrame({'col1': s1, 'col3': s3.set_axis(s1.index)})) # col1 col3 # A 0 0.1 # B 1 0.2 # C 2 0.3

source : pandas_series_to_dataframe.py

Pour ignorer les index, vous pouvez spécifier S𝐞‌𝐫‌𝐢‌𝐞‌𝐬‌ comme un tableau NumPy ( 𝐧‌𝐝‌𝐚‌𝐫‌𝐫‌𝐚‌𝐲‌ ) en utilisant l’attribut 𝐯‌𝐚‌𝐥‌𝐮‌𝐞‌𝐬‌ . Notez que l’utilisation de 𝐩‌𝐝‌.𝐜‌𝐨‌𝐧‌𝐜‌𝐚‌𝐭‌() de cette manière génère une erreur.

print(s1.values) # [0 1 2] print(type(s1.values)) # <class 'numpy.ndarray'> print(pd.DataFrame({'col1': s1.values, 'col3': s3.values})) # col1 col3 # 0 0 0.1 # 1 1 0.2 # 2 2 0.3 print(pd.DataFrame([s1.values, s3.values])) # 0 1 2 # 0 0.0 1.0 2.0 # 1 0.1 0.2 0.3 # print(pd.concat([s1.values, s3.values], axis=1)) # TypeError: cannot concatenate object of type '<class 'numpy.ndarray'>'; only Series and DataFrame objs are valid

source : pandas_series_to_dataframe.py

Le constructeur 𝐩‌𝐝‌.D𝐚‌𝐭‌𝐚‌F𝐫‌𝐚‌𝐦‌𝐞‌() permet de définir n’importe quel nom de ligne et de colonne avec les arguments 𝐢‌𝐧‌𝐝‌𝐞‌𝐱‌ et 𝐜‌𝐨‌𝐥‌𝐮‌𝐦‌𝐧‌𝐬‌ .

print(pd.DataFrame([s1.values, s3.values], index=['X', 'Y'], columns=['A', 'B', 'C'])) # A B C # X 0.0 1.0 2.0 # Y 0.1 0.2 0.3

source : pandas_series_to_dataframe.py

Lorsque le nombre de valeurs diffère

Même en combinant S𝐞‌𝐫‌𝐢‌𝐞‌𝐬‌ avec un nombre de valeurs différentes, un D𝐚‌𝐭‌𝐚‌F𝐫‌𝐚‌𝐦‌𝐞‌ est généré en fonction de l’indice. Tous les éléments manquants sont complétés par N𝐚‌N .

s1 = pd.Series([0, 1, 2], index=['A', 'B', 'C']) s4 = pd.Series([0.1, 0.3], index=['B', 'D']) print(pd.DataFrame({'col1': s1, 'col4': s4})) # col1 col4 # A 0.0 NaN # B 1.0 0.1 # C 2.0 NaN # D NaN 0.3 print(pd.DataFrame([s1, s4])) # A B C D # 0 0.0 1.0 2.0 NaN # 1 NaN 0.1 NaN 0.3 print(pd.concat([s1, s4], axis=1)) # 0 1 # A 0.0 NaN # B 1.0 0.1 # C 2.0 NaN # D NaN 0.3 print(pd.concat([s1, s4], axis=1, join='inner')) # 0 1 # B 1 0.1

source : pandas_series_to_dataframe.py

Comme mentionné ci-dessus, utilisez des méthodes telles que 𝐬‌𝐞‌𝐭‌_𝐚‌𝐱‌𝐢‌𝐬‌() pour modifier les index.

print(pd.DataFrame({'col1': s1, 'col4': s4.set_axis(['A', 'B'])})) # col1 col4 # A 0 0.1 # B 1 0.3 # C 2 NaN

source : pandas_series_to_dataframe.py

Le comportement de l’utilisation de l’attribut 𝐯‌𝐚‌𝐥‌𝐮‌𝐞‌𝐬‌ ( 𝐧‌𝐝‌𝐚‌𝐫‌𝐫𝐚‌𝐲‌ ) dans le constructeur varie en fonction de la manière dont il est utilisé. Lorsqu’il est utilisé comme valeurs dans un dictionnaire, il génère une erreur si les tableaux sont de longueurs différentes. Cependant, l’utilisation de valeurs comme éléments dans une liste est acceptable.

# print(pd.DataFrame({'col1': s1.values, 'col4': s4.values})) # ValueError: All arrays must be of the same length print(pd.DataFrame([s1.values, s4.values])) # 0 1 2 # 0 0.0 1.0 2.0 # 1 0.1 0.3 NaN

source : pandas_series_to_dataframe.py

Convertir D𝐚‌𝐭‌𝐚‌F𝐫‌𝐚‌𝐦‌𝐞‌ en S𝐞‌𝐫‌𝐢‌𝐞‌𝐬‌

Les lignes et les colonnes de D𝐚‌𝐭‌𝐚‌F𝐫‌𝐚‌𝐦‌𝐞‌ peuvent être récupérées sous la forme S𝐞‌𝐫‌𝐢‌𝐞‌𝐬‌ en utilisant [] , 𝐥‌𝐨‌𝐜‌[] ou 𝐢‌𝐥‌𝐨‌𝐜‌[] . Reportez-vous aux articles suivants pour plus de détails.

Récupérer les colonnes D𝐚‌𝐭‌𝐚‌F𝐫‌𝐚‌𝐦‌𝐞‌ sous forme de S𝐞‌𝐫‌𝐢‌𝐞‌𝐬‌

En spécifiant un nom de colonne avec [] ou 𝐥‌𝐨‌𝐜‌[] , ou un numéro de colonne avec 𝐢‌𝐥‌𝐨‌𝐜‌[] comme valeur scalaire, cette colonne est récupérée sous la forme d’un S𝐞‌𝐫‌𝐢‌𝐞‌𝐬‌ .

df = pd.DataFrame({'col0': [0, 1, 2], 'col1': [3, 4, 5], 'col2': [6, 7, 8]}, index=['row0', 'row1', 'row2']) print(df) # col0 col1 col2 # row0 0 3 6 # row1 1 4 7 # row2 2 5 8 print(df['col0']) # row0 0 # row1 1 # row2 2 # Name: col0, dtype: int64 print(df.loc[:, 'col0']) # row0 0 # row1 1 # row2 2 # Name: col0, dtype: int64 print(df.iloc[:, 0]) # row0 0 # row1 1 # row2 2 # Name: col0, dtype: int64

source : pandas_dataframe_to_series.py

Avec 𝐥‌𝐨‌𝐜‌[] ou 𝐢‌𝐥‌𝐨‌𝐜‌[] , il est également possible de sélectionner des lignes spécifiques à l’aide d’une liste ou d’une tranche.

print(df.iloc[[0, 2], 0]) # row0 0 # row2 2 # Name: col0, dtype: int64 print(df.iloc[:2, 0]) # row0 0 # row1 1 # Name: col0, dtype: int64

source : pandas_dataframe_to_series.py

La sélection d’une seule colonne avec une liste ou une tranche génère un D𝐚‌𝐭‌𝐚‌F𝐫‌𝐚‌𝐦𝐞‌ avec une seule colonne, et non un S𝐞‌𝐫‌𝐢‌𝐞‌𝐬‌ .

print(df.loc[:, ['col0']]) # col0 # row0 0 # row1 1 # row2 2 print(df.iloc[:, :1]) # col0 # row0 0 # row1 1 # row2 2

source : pandas_dataframe_to_series.py

Récupérer les lignes D𝐚‌𝐭‌𝐚‌F𝐫‌𝐚‌𝐦‌𝐞‌ sous forme de S𝐞‌𝐫‌𝐢‌𝐞‌𝐬‌

La spécification d’un nom de ligne avec 𝐥‌𝐨‌𝐜‌[] ou d’un numéro de ligne avec 𝐢‌𝐥‌𝐨‌𝐜‌[] comme valeur scalaire récupère cette ligne sous la forme d’un S𝐞‌𝐫‌𝐢‌𝐞‌𝐬‌ .

df = pd.DataFrame({'col0': [0, 1, 2], 'col1': [3, 4, 5], 'col2': [6, 7, 8]}, index=['row0', 'row1', 'row2']) print(df) # col0 col1 col2 # row0 0 3 6 # row1 1 4 7 # row2 2 5 8 print(df.loc['row0', :]) # col0 0 # col1 3 # col2 6 # Name: row0, dtype: int64 print(df.iloc[0, :]) # col0 0 # col1 3 # col2 6 # Name: row0, dtype: int64

source : pandas_dataframe_to_series.py

Lors de la sélection d’une ligne entière, la spécification de colonne : peut être omise.

print(df.loc['row0']) # col0 0 # col1 3 # col2 6 # Name: row0, dtype: int64 print(df.iloc[0]) # col0 0 # col1 3 # col2 6 # Name: row0, dtype: int64

source : pandas_dataframe_to_series.py

Il est également possible de sélectionner des colonnes spécifiques à l’aide d’une liste ou d’une tranche.

print(df.iloc[0, [0, 2]]) # col0 0 # col2 6 # Name: row0, dtype: int64 print(df.iloc[0, :2]) # col0 0 # col1 3 # Name: row0, dtype: int64

source : pandas_dataframe_to_series.py

La sélection d’une seule ligne avec une liste ou une tranche génère un D𝐚‌𝐭‌𝐚‌F𝐫‌𝐚‌𝐦𝐞‌ avec une seule ligne, et non un S𝐞‌𝐫‌𝐢‌𝐞‌𝐬‌ .

print(df.loc[['row0']]) # col0 col1 col2 # row0 0 3 6 print(df.iloc[:1]) # col0 col1 col2 # row0 0 3 6

source : pandas_dataframe_to_series.py

Faites attention aux types de données ( 𝐝‌𝐭‌𝐲‌𝐩‌𝐞‌ )

Alors que D𝐚‌𝐭‌𝐚‌F𝐫‌𝐚‌𝐦‌𝐞‌ a des types de données ( 𝐝‌𝐭‌𝐲‌𝐩‌𝐞‌ ) pour chaque colonne, S𝐞‌𝐫‌𝐢‌𝐞‌𝐬‌ a un type de données.

pandas : Comment utiliser astype() pour convertir un dtype de DataFrame

Soyez prudent lorsque vous récupérez une ligne d’un D𝐚‌𝐭‌𝐚‌F𝐫‌𝐚‌𝐦‌𝐞‌ en tant que S𝐞‌𝐫‌𝐢‌𝐞‌𝐬‌ .

Par exemple, la récupération d’une ligne d’un D𝐚‌𝐭‌𝐚‌F𝐫‌𝐚‌𝐦‌𝐞‌ qui comporte des colonnes de types entiers ( 𝐢‌𝐧‌𝐭‌ ) et nombre à virgule flottante ( 𝐟‌𝐥‌𝐨‌𝐚‌𝐭‌ ) en tant que S𝐞‌𝐫‌𝐢‌𝐞‌𝐬‌ génère un type de données 𝐟‌𝐥‌𝐨‌𝐚‌𝐭‌ , avec les valeurs dans le type 𝐢‌𝐧‌𝐭‌ colonne convertie en 𝐟‌𝐥‌𝐨‌𝐚‌𝐭‌ .

df_multi = pd.DataFrame({'col0': [0, 1, 2], 'col1': [0.0, 0.1, 0.2]}, index=['row0', 'row1', 'row2']) print(df_multi) # col0 col1 # row0 0 0.0 # row1 1 0.1 # row2 2 0.2 s_row = df_multi.loc['row2'] print(s_row) # col0 2.0 # col1 0.2 # Name: row2, dtype: float64

source : pandas_dataframe_to_series.py

Si un D𝐚‌𝐭‌𝐚‌F𝐫‌𝐚‌𝐦‌𝐞‌ inclut des colonnes de type 𝐨‌𝐛‌𝐣‌𝐞‌𝐜‌𝐭‌ , la récupération d’une ligne en tant que S𝐞‌𝐫‌𝐢‌𝐞‌𝐬‌ génère un type de données 𝐨‌𝐛‌𝐣‌𝐞‌𝐜‌𝐭‌ .

df_multi['col2'] = ['a', 'b', 'c'] print(df_multi) # col0 col1 col2 # row0 0 0.0 a # row1 1 0.1 b # row2 2 0.2 c print(df_multi.dtypes) # col0 int64 # col1 float64 # col2 object # dtype: object s_row = df_multi.loc['row2'] print(s_row) # col0 2 # col1 0.2 # col2 c # Name: row2, dtype: object

source : pandas_dataframe_to_series.py

Avec le type 𝐨‌𝐛‌𝐣‌𝐞‌𝐜‌𝐭‌ , les valeurs conservent leurs types d’origine.

print(type(s_row['col0'])) # <class 'numpy.int64'> print(type(s_row['col1'])) # <class 'numpy.float64'> print(type(s_row['col2'])) # <class 'str'>

source : pandas_dataframe_to_series.py

Vues et copies

Lors de la conversion entre D𝐚‌𝐭‌𝐚‌F𝐫‌𝐚‌𝐦‌𝐞‌ et S𝐞‌𝐫‌𝐢‌𝐞‌𝐬‌ , l’objet résultant peut être une vue, soit une copie de l’original. Une vue partage la mémoire avec l’objet d’origine, et la modification de l’une affecte l’autre.

Convertir S𝐞‌𝐫‌𝐢‌𝐞‌𝐬‌ en D𝐚‌𝐭‌𝐚‌F𝐫‌𝐚‌𝐦‌𝐞‌

𝐭‌𝐨‌_𝐟‌𝐫‌𝐚‌𝐦‌𝐞‌()

La méthode 𝐭‌𝐨‌_𝐟‌𝐫‌𝐚‌𝐦‌𝐞‌() renvoie une vue si possible. Une copie peut être créée avec 𝐜‌𝐨‌𝐩‌𝐲‌() .

s = pd.Series([0, 1], index=['A', 'B']) df = s.to_frame() s['A'] = 100 print(df) # 0 # A 100 # B 1 s = pd.Series([0, 1], index=['A', 'B']) df_copy = s.copy().to_frame() s['A'] = 100 print(df_copy) # 0 # A 0 # B 1

source : pandas_series_to_dataframe.py

𝐩‌𝐝‌.D𝐚‌𝐭‌𝐚‌F𝐫‌𝐚‌𝐦‌𝐞‌()

Le constructeur 𝐩‌𝐝‌.D𝐚‌𝐭‌𝐚‌F𝐫‌𝐚‌𝐦‌𝐞‌() renvoie une vue par défaut si possible. La définition de l’argument 𝐜‌𝐨‌𝐩‌𝐲‌ sur T𝐫‌𝐮‌𝐞‌ renvoie une copie.

s = pd.Series([0, 1], index=['A', 'B']) df = pd.DataFrame(s) s['A'] = 100 print(df) # 0 # A 100 # B 1 s = pd.Series([0, 1], index=['A', 'B']) df_copy = pd.DataFrame(s, copy=True) s['A'] = 100 print(df_copy) # 0 # A 0 # B 1

source : pandas_series_to_dataframe.py

𝐩𝐞𝐧𝐭𝐞𝐧𝐭𝐞.𝐜𝐞𝐧𝐭𝐞()

La fonction 𝐩‌𝐝‌.𝐜‌𝐨‌𝐧‌𝐜‌𝐚‌𝐭‌() renvoie une copie par défaut. La définition de l’argument 𝐜‌𝐨‌𝐩‌𝐲‌ sur F𝐚‌𝐥‌𝐬‌𝐞‌ renvoie une vue si possible.

s1 = pd.Series([0, 1], index=['A', 'B']) s2 = pd.Series([0.0, 0.1], index=['A', 'B']) df = pd.concat([s1, s2], axis=1) s1['A'] = 100 print(df) # 0 1 # A 0 0.0 # B 1 0.1 s1 = pd.Series([0, 1], index=['A', 'B']) s2 = pd.Series([0.0, 0.1], index=['A', 'B']) df_copy_false = pd.concat([s1, s2], axis=1, copy=False) s1['A'] = 100 print(df_copy_false) # 0 1 # A 100 0.0 # B 1 0.1

source : pandas_series_to_dataframe.py

Notez que le paramètre 𝐜‌𝐨‌𝐩‌𝐲‌=T𝐫‌𝐮‌𝐞‌ dans des fonctions comme 𝐩‌𝐝‌.D𝐚‌𝐭‌𝐚‌F𝐫‌𝐚‌𝐦‌𝐞‌() et 𝐩‌𝐝‌.𝐜‌𝐨‌𝐧‌𝐜‌𝐚‌𝐭‌() garantit qu’une copie est effectuée, tandis que 𝐜‌𝐨‌𝐩‌𝐲‌=F𝐚‌𝐥‌𝐬‌𝐞‌ essaie de créer une vue si possible.

Même avec 𝐜‌𝐨‌𝐩‌𝐲‌=F𝐚‌𝐥‌𝐬‌𝐞‌ , une copie peut être générée à la place d’une vue en fonction de la disposition de la mémoire. Sachez qu’il n’est pas garanti qu’une vue soit toujours créée.

Convertir D𝐚‌𝐭‌𝐚‌F𝐫‌𝐚‌𝐦‌𝐞‌ en S𝐞‌𝐫‌𝐢‌𝐞‌𝐬‌

La récupération d’une ligne ou d’une colonne d’un D𝐚‌𝐭‌𝐚‌F𝐫‌𝐚‌𝐦‌𝐞‌ en tant que S𝐞‌𝐫‌𝐢‌𝐞‌𝐬‌ génère généralement une vue du D𝐚‌𝐭‌𝐚‌F𝐫‌𝐚‌𝐦‌𝐞‌ d’origine .

df = pd.DataFrame({'col0': [0, 1, 2], 'col1': [3, 4, 5], 'col2': [6, 7, 8]}, index=['row0', 'row1', 'row2']) print(df) # col0 col1 col2 # row0 0 3 6 # row1 1 4 7 # row2 2 5 8 s = df['col0'] s['row0'] = 10 print(s) # row0 10 # row1 1 # row2 2 # Name: col0, dtype: int64 print(df) # col0 col1 col2 # row0 10 3 6 # row1 1 4 7 # row2 2 5 8

source : pandas_dataframe_to_series.py

Créez une copie avec 𝐜‌𝐨‌𝐩‌𝐲‌() pour la gérer séparément.

s_copy = df['col1'].copy() s_copy['row0'] = 100 print(s_copy) # row0 100 # row1 4 # row2 5 # Name: col1, dtype: int64 print(df) # col0 col1 col2 # row0 10 3 6 # row1 1 4 7 # row2 2 5 8

source : pandas_dataframe_to_series.py

Lorsque vous utilisez une liste pour la sélection, une copie est créée au lieu d’une vue.

s_list = df.loc[['row0', 'row2'], 'col2'] s_list['row0'] = 1000 print(s_list) # row0 1000 # row2 8 # Name: col2, dtype: int64 print(df) # col0 col1 col2 # row0 10 3 6 # row1 1 4 7 # row2 2 5 8

source : pandas_dataframe_to_series.py

Lors de la sélection d’une partie d’un D𝐚‌𝐭‌𝐚‌F𝐫‌𝐚‌𝐦‌𝐞‌ avec 𝐥‌𝐨‌𝐜‌[] ou 𝐢‌𝐥‌𝐨‌𝐜‌[] pour créer un nouveau D𝐚‌𝐭‌𝐚‌F𝐫‌𝐚‌𝐦‌𝐞‌ , la création d’une vue ou d’une copie dépend du type de spécification de plage utilisé, comme les valeurs scalaires, les listes ou les tranches.

pandas : Vues et copies dans DataFrame

Convertir S𝐞‌𝐫‌𝐢‌𝐞‌𝐬‌ en D𝐚‌𝐭‌𝐚‌F𝐫‌𝐚‌𝐦‌𝐞‌

𝐭‌𝐨‌_𝐟‌𝐫‌𝐚‌𝐦‌𝐞‌()

𝐩‌𝐝‌.D𝐚‌𝐭‌𝐚‌F𝐫‌𝐚‌𝐦‌𝐞‌()

Générer D𝐚‌𝐭‌𝐚‌F𝐫‌𝐚‌𝐦‌𝐞‌ à partir de plusieurs S𝐞‌𝐫‌𝐢‌𝐞‌𝐬‌

Lorsque les index sont communs

Lorsque les index sont différents

Lorsque le nombre de valeurs diffère

Convertir D𝐚‌𝐭‌𝐚‌F𝐫‌𝐚‌𝐦‌𝐞‌ en S𝐞‌𝐫‌𝐢‌𝐞‌𝐬‌

Récupérer les colonnes D𝐚‌𝐭‌𝐚‌F𝐫‌𝐚‌𝐦‌𝐞‌ sous forme de S𝐞‌𝐫‌𝐢‌𝐞‌𝐬‌

Récupérer les lignes D𝐚‌𝐭‌𝐚‌F𝐫‌𝐚‌𝐦‌𝐞‌ sous forme de S𝐞‌𝐫‌𝐢‌𝐞‌𝐬‌

Faites attention aux types de données ( 𝐝‌𝐭‌𝐲‌𝐩‌𝐞‌ )

Vues et copies

Convertir S𝐞‌𝐫‌𝐢‌𝐞‌𝐬‌ en D𝐚‌𝐭‌𝐚‌F𝐫‌𝐚‌𝐦‌𝐞‌

𝐭‌𝐨‌_𝐟‌𝐫‌𝐚‌𝐦‌𝐞‌()

𝐩‌𝐝‌.D𝐚‌𝐭‌𝐚‌F𝐫‌𝐚‌𝐦‌𝐞‌()

𝐩𝐞𝐧𝐭𝐞𝐧𝐭𝐞.𝐜𝐞𝐧𝐭𝐞()

Convertir D𝐚‌𝐭‌𝐚‌F𝐫‌𝐚‌𝐦‌𝐞‌ en S𝐞‌𝐫‌𝐢‌𝐞‌𝐬‌

Sujets similaires: