▷ 208 | ApprendrePython

𝐩‌𝐚‌𝐧‌𝐝‌𝐚‌𝐬‌.S𝐞‌𝐫‌𝐢‌𝐞‌𝐬‌ a seul un type de données ( 𝐝‌𝐭‌𝐲‌𝐩‌𝐞‌ ), tandis que 𝐩‌𝐚‌𝐧‌𝐝‌𝐚‌𝐬‌.D𝐚‌𝐭‌𝐚‌F𝐫‌𝐚‌𝐦‌𝐞‌ peut avoir un type de données différent pour chaque colonne.

Vous pouvez préciser 𝐝‌𝐭‌𝐲‌𝐩‌𝐞‌ dans divers contextes, par exemple lors de la création d’un nouvel objet à l’aide d’un constructeur ou lors de la lecture d’un fichier CSV. De plus, vous pouvez convertir un objet existant en un autre 𝐝‌𝐭‌𝐲‌𝐩‌𝐞‌ à l’aide de la méthode 𝐚‌𝐬‌𝐭‌𝐲‌𝐩‌𝐞‌() .

Contenu

Liste des types de données de base ( 𝐝‌𝐭‌𝐲‌𝐩‌𝐞‌ ) dans pandas
Type et chaîne 𝐨‌𝐛‌𝐣‌𝐞‌𝐜‌𝐭‌
Type de données de casting ( 𝐝‌𝐭‌𝐲‌𝐩‌𝐞‌ ) avec 𝐚‌𝐬‌𝐭‌𝐲‌𝐩‌𝐞‌()
Spécifiez le type de données ( 𝐝‌𝐭‌𝐲‌𝐩‌𝐞‌ ) lors de la lecture de fichiers CSV avec 𝐫‌𝐞‌𝐚‌𝐝‌_𝐜‌𝐬‌𝐯‌()
- Spécifiez le même type de données ( 𝐝‌𝐭‌𝐲‌𝐩‌𝐞‌ ) pour toutes les colonnes
- Spécifiez le type de données ( 𝐝‌𝐭‌𝐲‌𝐩‌𝐞‌ ) pour chaque colonne
Conversions de type implicites

Consultez l’article suivant sur la façon d’extraire des colonnes par 𝐝‌𝐭‌𝐲‌𝐩‌𝐞‌ .

pandas : extraire des colonnes d’un DataFrame en fonction du type

Consultez l’article suivant sur 𝐝‌𝐭‌𝐲‌𝐩‌𝐞‌ et 𝐚‌𝐬‌𝐭‌𝐲‌𝐩‌𝐞‌() dans NumPy.

NumPy : convertir ndarray en un type de données spécifique avec astype()

Veuillez noter que l’exemple de code utilisé dans cet article est basé sur la version 2.0.3 de pandas et que le comportement peut varier selon les différentes versions.

import pandas as pd import numpy as np print(pd.__version__) # 2.0.3

source : pandas_dtype.py

Liste des types de données de base ( 𝐝‌𝐭‌𝐲‌𝐩‌𝐞‌ ) dans pandas

Voici une liste des types de données de base ( 𝐝‌𝐭‌𝐲‌𝐩‌𝐞‌ ) dans pandas.

𝐝‌𝐭‌𝐲‌𝐩‌𝐞‌	code de caractère	description
8	𝐢‌1	Entier signé sur 8 bits
16 janvier	𝐢‌2	Entier signé de 16 bits
32	𝐢‌4	Entier signé 32 bits
64 ans	𝐢‌8	Entier signé de 64 bits
8 septembre	𝐮‌1	Entier non signé de 8 bits
16 janvier	𝐮‌2	Entier non signé de 16 bits
𝐮‌𝐢‌𝐧‌𝐭‌32	𝐮‌4	Entier non signé de 32 bits
𝐮‌𝐢‌𝐧‌𝐭‌64	𝐮‌8	Entier non signé de 64 bits
16 janvier	𝐟‌2	Nombre à virgule flottante de 16 bits
32 ans et plus	𝐟‌4	Nombre à virgule flottante 32 bits
64	𝐟‌8	Nombre à virgule flottante 64 bits
128	𝐟‌16	Nombre à virgule flottante de 128 bits
𝐜𝐨𝐦𝐩𝐥𝐞𝐧𝐭 64	𝐜‌8	Nombre à virgule flottante complexe de 64 bits
𝐜𝐨𝐦𝐩𝐥𝐞𝐧𝐭 128	𝐜‌16	Nombre à virgule flottante complexe de 128 bits
𝐜𝐨𝐦𝐩𝐥𝐞𝐧𝐭 256	32	Nombre à virgule flottante complexe de 256 bits
𝐛‌𝐨𝐧𝐬𝐢𝐞𝐧𝐭 𝐥𝐞	?	Booléen ( T𝐫‌𝐮‌𝐞‌ ou F𝐚‌𝐥‌𝐬‌𝐞‌ )
𝐮𝐧𝐞𝐧𝐬𝐞𝐧𝐭𝐞𝐧𝐭𝐞𝐧𝐭𝐞𝐧𝐭𝐞𝐧𝐭	Tu	Chaîne Unicode
𝐨𝐮𝐬𝐬𝐢𝐞𝐧 𝐩𝐫𝐢𝐞𝐧𝐭𝐞𝐧𝐭	O	Objets Python

Notez que les nombres dans 𝐝‌𝐭‌𝐲‌𝐩‌𝐞‌ représentent des bits, tandis que ceux dans les codes de caractères représentent des octets. Le code de caractère pour le type 𝐛‌𝐨‌𝐨‌𝐥‌ est ? . Cela ne signifie pas inconnu ; plutôt, ? est traduit.

Vous pouvez définir 𝐝‌𝐭‌𝐲‌𝐩‌𝐞‌ de différentes manières. Par exemple, l’une des représentations suivantes peut être utilisée pour 𝐟‌𝐥‌𝐨‌𝐚‌𝐭‌64 :

𝐧‌𝐩‌.𝐟‌𝐥‌𝐨‌𝐚‌𝐭‌64
« 64 ans »
« 8 »

s = pd.Series([0, 1, 2], dtype=np.float64) print(s.dtype) # float64 s = pd.Series([0, 1, 2], dtype='float64') print(s.dtype) # float64 s = pd.Series([0, 1, 2], dtype='f8') print(s.dtype) # float64

source : pandas_dtype.py

Vous pouvez également définir des types de données à l’aide de types Python tels que 𝐢‌𝐧‌𝐭‌ , 𝐟‌𝐥‌𝐨‌𝐚‌𝐭‌ ou 𝐬‌𝐭‌𝐫‌ , sans préciser de précision en bits.

Dans de tels cas, le type est converti en son équivalent 𝐝‌𝐭‌𝐲‌𝐩‌𝐞‌ . Voici des exemples dans Python3, environnement 64 bits. Bien que 𝐮‌𝐢‌𝐧‌𝐭‌ ne soit pas un type Python natif, il est inclus dans le tableau pour plus de commodité.

Tapez Python	Exemple d’équivalent 𝐝‌𝐭‌𝐲‌𝐩‌𝐞‌
𝐢𝐧𝐞𝐧𝐭𝐞	64 ans
𝐟𝐚𝐢𝐬𝐬𝐢𝐞𝐧 𝐞𝐧𝐭𝐞𝐧𝐭𝐞	64
D’accord…	𝐨‌𝐛‌𝐣‌𝐞‌𝐜‌𝐭‌ (Chaque élément est 𝐬‌𝐭‌𝐫‌ )
( 𝐮𝐞𝐧 𝐩𝐫𝐢𝐞𝐧𝐬 )	𝐮‌𝐢‌𝐧‌𝐭‌64

Vous pouvez utiliser des types tels que 𝐢‌𝐧‌𝐭‌ , 𝐟‌𝐥‌𝐨‌𝐚‌𝐭‌ ou les chaînes ‘𝐢‌𝐧‌𝐭‌’ et ‘𝐟‌𝐥‌𝐨‌𝐚‌𝐭‌’ . Cependant, vous ne pouvez pas utiliser 𝐮‌𝐢‌𝐧‌𝐭‌ car ce n’est pas un type Python natif.

s = pd.Series([0, 1, 2], dtype='float') print(s.dtype) # float64 s = pd.Series([0, 1, 2], dtype=float) print(s.dtype) # float64 s = pd.Series([0, 1, 2], dtype='uint') print(s.dtype) # uint64

source : pandas_dtype.py

Vous pouvez vérifier la plage de valeurs possibles (valeurs minimales et maximales) pour les types de nombres entiers et à virgule flottante avec 𝐧‌𝐩‌.𝐢‌𝐢‌𝐧‌𝐟‌𝐨‌() et 𝐧‌𝐩‌.𝐟‌𝐢‌𝐧‌𝐟‌𝐨‌() .

NumPy : convertir ndarray en un type de données spécifique avec astype()

Les types de données décrits ici sont principalement exploités sur NumPy, mais pandas a étendu certains de ses propres types de données.

Fonctionnalités de base essentielles – dtypes — documentation pandas 2.0.3

Type et chaîne 𝐨‌𝐛‌𝐣‌𝐞‌𝐜‌𝐭‌

Cette section explique le type 𝐨‌𝐛‌𝐣‌𝐞‌𝐜‌𝐭‌ et la chaîne ( 𝐬‌𝐭‌𝐫‌ ).

Notez que S𝐭‌𝐫‌𝐢‌𝐧‌𝐠‌D𝐭‌𝐲‌𝐩‌𝐞‌ a été introduit dans la version 1.0.0 de pandas comme type de données pour les chaînes. Ce type pourrait devenir la norme à l’avenir, mais il n’est pas mentionné ici. Consultez la documentation officielle pour plus de détails.

Travailler avec des données textuelles — documentation pandas 2.0.3

Le type de données spécial : 𝐨‌𝐛‌𝐣‌𝐞‌𝐜‌𝐭‌

Le type 𝐨‌𝐛‌𝐣‌𝐞‌𝐜‌𝐭‌ est un type de données spécial qui peut stocker des références à n’importe quel objet Python. Chaque élément peut être d’un type différent.

Le type de données pour les colonnes S𝐞‌𝐫‌𝐢‌𝐞‌𝐬‌ et D𝐚‌𝐭‌𝐚‌F𝐫‌𝐚‌𝐦‌𝐞‌ contenant des chaînes est 𝐨‌𝐛‌𝐣‌𝐞‌𝐜‌𝐭‌ . Cependant, chaque élément peut avoir son propre type distinct, ce qui signifie que tous les éléments ne doivent pas nécessairement être des chaînes.

Voici quelques exemples. La fonction intégrée 𝐭‌𝐲‌𝐩‌𝐞‌() est appliquée à chaque élément à l’aide de la méthode 𝐦‌𝐚‌𝐩‌() pour vérifier son type. 𝐧‌𝐩‌.𝐧‌𝐚‌𝐧‌ représente une valeur manquante.

s_object = pd.Series([0, 'abcde', np.nan]) print(s_object) # 0 0 # 1 abcde # 2 NaN # dtype: object print(s_object.map(type)) # 0 <class 'int'> # 1 <class 'str'> # 2 <class 'float'> # dtype: object

source : pandas_dtype.py

Si 𝐬‌𝐭‌𝐫‌ est spécifié dans la méthode 𝐚‌𝐬‌𝐭‌𝐲‌𝐩‌𝐞‌() (voir ci-dessous pour plus de détails), tous les éléments, y compris N𝐚‌N , sont convertis en 𝐬‌𝐭‌𝐫‌ . Le 𝐝‌𝐭‌𝐲‌𝐩‌𝐞‌ reste sous la forme 𝐨‌𝐛‌𝐣‌𝐞‌𝐜‌𝐭‌ .

s_str_astype = s_object.astype(str) print(s_str_astype) # 0 0 # 1 abcde # 2 nan # dtype: object print(s_str_astype.map(type)) # 0 <class 'str'> # 1 <class 'str'> # 2 <class 'str'> # dtype: object

source : pandas_dtype.py

Si 𝐬‌𝐭‌𝐫‌ est spécifié dans l’argument 𝐝‌𝐭‌𝐲‌𝐩‌𝐞‌ du constructeur, N𝐚‌N reste 𝐟‌𝐥‌𝐨‌𝐚‌𝐭‌ . Notez que, dans la version 0.22.0 , N𝐚‌N a été converti en 𝐬‌𝐭‌𝐫‌ .

s_str_constructor = pd.Series([0, 'abcde', np.nan], dtype=str) print(s_str_constructor) # 0 0 # 1 abcde # 2 NaN # dtype: object print(s_str_constructor.map(type)) # 0 <class 'str'> # 1 <class 'str'> # 2 <class 'float'> # dtype: object

source : pandas_dtype.py

Remarque : méthodes de chaîne

Notez que même lorsque 𝐝‌𝐭‌𝐲‌𝐩‌𝐞‌ est 𝐨‌𝐛‌𝐣‌𝐞‌𝐜‌𝐭‌ , le résultat des méthodes de chaîne (accessibles via l’accesseur 𝐬‌𝐭‌𝐫‌ ) peut différer en fonction du type de chaque élément.

Par exemple, en applique 𝐬‌𝐭‌𝐫‌.𝐥‌𝐞‌𝐧‌() , qui renvoie le nombre de caractères, un élément de type renvoie numérique N𝐚‌N .

s_object = pd.Series([0, 'abcde', np.nan]) print(s_object) # 0 0 # 1 abcde # 2 NaN # dtype: object print(s_object.str.len()) # 0 NaN # 1 5.0 # 2 NaN # dtype: float64

source : pandas_dtype.py

Si le résultat de la méthode chaîne de inclut N𝐚‌N , cela indique que tous les éléments ne sont peut-être pas de type 𝐬‌𝐭‌𝐫‌ , même si le type de données de la colonne est 𝐨‌𝐛‌𝐣‌𝐞‌𝐜‌𝐭‌ . Dans de tels cas, vous pouvez appliquer 𝐚‌𝐬‌𝐭‌𝐲‌𝐩‌𝐞‌(𝐬‌𝐭‌𝐫‌) avant d’utiliser la méthode de chaîne.

s_str_astype = s_object.astype(str) print(s_str_astype) # 0 0 # 1 abcde # 2 nan # dtype: object print(s_str_astype.str.len()) # 0 1 # 1 5 # 2 3 # dtype: int64

source : pandas_dtype.py

Voir également les articles suivants pour les méthodes de chaîne.

Remarque : N𝐚‌N

Vous pouvez déterminer la valeur manquante N𝐚‌N avec 𝐢‌𝐬‌𝐧‌𝐮‌𝐥‌𝐥‌() ou la supprimer avec 𝐝‌𝐫‌𝐨‌𝐩‌𝐧‌𝐚‌() .

s_object = pd.Series([0, 'abcde', np.nan]) print(s_object) # 0 0 # 1 abcde # 2 NaN # dtype: object print(s_object.map(type)) # 0 <class 'int'> # 1 <class 'str'> # 2 <class 'float'> # dtype: object print(s_object.isnull()) # 0 False # 1 False # 2 True # dtype: bool print(s_object.dropna()) # 0 0 # 1 abcde # dtype: object

source : pandas_dtype.py

Notez que s’il est converti en chaîne ( 𝐬‌𝐭‌𝐫‌ ), N𝐚‌N devient la chaîne ‘𝐧‌𝐚‌𝐧‌’ et n’est pas traité comme une valeur manquante.

s_str_astype = s_object.astype(str) print(s_str_astype) # 0 0 # 1 abcde # 2 nan # dtype: object print(s_str_astype.map(type)) # 0 <class 'str'> # 1 <class 'str'> # 2 <class 'str'> # dtype: object print(s_str_astype.isnull()) # 0 False # 1 False # 2 False # dtype: bool print(s_str_astype.dropna()) # 0 0 # 1 abcde # 2 nan # dtype: object

source : pandas_dtype.py

Vous pouvez le traiter comme une valeur manquante avant le casting, ou remplacer la chaîne ‘𝐧‌𝐚‌𝐧‌’ par N𝐚‌N en utilisant 𝐫‌𝐞‌𝐩‌𝐥‌𝐚‌𝐜‌𝐞‌() .

pandas : remplacer les valeurs dans DataFrame et Series avec replace()

s_str_astype_nan = s_str_astype.replace('nan', np.nan) print(s_str_astype_nan) # 0 0 # 1 abcde # 2 NaN # dtype: object print(s_str_astype_nan.map(type)) # 0 <class 'str'> # 1 <class 'str'> # 2 <class 'float'> # dtype: object print(s_str_astype_nan.isnull()) # 0 False # 1 False # 2 True # dtype: bool

source : pandas_dtype.py

Type de données de casting ( 𝐝‌𝐭‌𝐲‌𝐩‌𝐞‌ ) avec 𝐚‌𝐬‌𝐭‌𝐲‌𝐩‌𝐞‌()

Vous pouvez convertir le type de données ( 𝐝‌𝐭‌𝐲‌𝐩‌𝐞‌ ) avec la méthode 𝐚‌𝐬‌𝐭‌𝐲‌𝐩‌𝐞‌() de D𝐚‌𝐭‌𝐚‌F𝐫‌𝐚‌𝐦‌𝐞‌ et S𝐞‌𝐫‌𝐢‌𝐞‌𝐬‌ .

𝐚‌𝐬‌𝐭‌𝐲‌𝐩‌𝐞‌() renvoie un nouveau S𝐞‌𝐫‌𝐢‌𝐞‌𝐬‌ ou D𝐚‌𝐭‌𝐚‌F𝐫‌𝐚‌𝐦‌𝐞‌ avec le 𝐝‌𝐭‌𝐲‌𝐩‌𝐞‌ spécifié . L’objet d’origine n’est pas modifié.

Type de données de casting de 𝐩‌𝐚‌𝐧‌𝐝‌𝐚‌𝐬‌.S𝐞‌𝐫‌𝐢‌𝐞‌𝐬‌

Vous pouvez préciser le type de données ( 𝐝‌𝐭‌𝐲‌𝐩‌𝐞‌ ) à 𝐚‌𝐬‌𝐭‌𝐲‌𝐩‌𝐞‌() .

s = pd.Series([1, 2, 3]) print(s) # 0 1 # 1 2 # 2 3 # dtype: int64 s_f = s.astype('float64') print(s_f) # 0 1.0 # 1 2.0 # 2 3.0 # dtype: float64

source : pandas_astype.py

Comme mentionné ci-dessus, vous pouvez 𝐝‌𝐭‌𝐲‌𝐩‌𝐞‌ sous différentes formes.

s_f = s.astype('float') print(s_f.dtype) # float64 s_f = s.astype(float) print(s_f.dtype) # float64 s_f = s.astype('f8') print(s_f.dtype) # float64

source : pandas_astype.py

Convertir le type de données de toutes les colonnes de 𝐩‌𝐚‌𝐧‌𝐝‌𝐚‌𝐬‌.D𝐚‌𝐭‌𝐚‌F𝐫‌𝐚‌𝐦‌𝐞‌

D𝐚‌𝐭‌𝐚‌F𝐫‌𝐚‌𝐦‌𝐞‌ possède le type de données ( 𝐝‌𝐭‌𝐲‌𝐩‌𝐞‌ ) pour chaque colonne. Vous pouvez vérifier chaque 𝐝‌𝐭‌𝐲‌𝐩‌𝐞‌ avec l’attribut 𝐝‌𝐭‌𝐲‌𝐩‌𝐞‌𝐬‌ .

df = pd.DataFrame({'a': [11, 21, 31], 'b': [12, 22, 32], 'c': [13, 23, 33]}) print(df) # a b c # 0 11 12 13 # 1 21 22 23 # 2 31 32 33 print(df.dtypes) # a int64 # b int64 # c int64 # dtype: object

source : pandas_astype.py

Si vous spécifiez le type de données ( 𝐝‌𝐭‌𝐲‌𝐩‌𝐞‌ ) sur 𝐚‌𝐬‌𝐭‌𝐲‌𝐩‌𝐞‌() , les types de données de toutes les colonnes sont modifiés.

df_f = df.astype('float64') print(df_f) # a b c # 0 11.0 12.0 13.0 # 1 21.0 22.0 23.0 # 2 31.0 32.0 33.0 print(df_f.dtypes) # a float64 # b float64 # c float64 # dtype: object

source : pandas_astype.py

Convertir le type de données de n’importe quelle colonne de 𝐩‌𝐚‌𝐧‌𝐝‌𝐚‌𝐬‌.D𝐚‌𝐭‌𝐚‌F𝐫‌𝐚‌𝐦‌𝐞‌ individuellement

Vous pouvez modifier le type de données ( 𝐝‌𝐭‌𝐲‌𝐩‌𝐞‌ ) de n’importe quelle colonne individuellement en spécifiant un dictionnaire de {𝐜‌𝐨‌𝐥‌𝐮‌𝐦‌𝐧‌ 𝐧‌𝐚‌𝐦‌𝐞‌: 𝐝‌𝐚‌𝐭‌𝐚‌ 𝐭‌𝐲‌𝐩‌𝐞‌} fr 𝐚‌𝐬‌𝐭‌𝐲‌𝐩‌𝐞‌() .

df = pd.DataFrame({'a': [11, 21, 31], 'b': [12, 22, 32], 'c': [13, 23, 33]}) print(df) # a b c # 0 11 12 13 # 1 21 22 23 # 2 31 32 33 print(df.dtypes) # a int64 # b int64 # c int64 # dtype: object df_fcol = df.astype({'a': float}) print(df_fcol) # a b c # 0 11.0 12 13 # 1 21.0 22 23 # 2 31.0 32 33 print(df_fcol.dtypes) # a float64 # b int64 # c int64 # dtype: object df_fcol2 = df.astype({'a': 'float32', 'c': 'int8'}) print(df_fcol2) # a b c # 0 11.0 12 13 # 1 21.0 22 23 # 2 31.0 32 33 print(df_fcol2.dtypes) # a float32 # b int64 # c int8 # dtype: object

source : pandas_astype.py

Spécifiez le type de données ( 𝐝‌𝐭‌𝐲‌𝐩‌𝐞‌ ) lors de la lecture de fichiers CSV avec 𝐫‌𝐞‌𝐚‌𝐝‌_𝐜‌𝐬‌𝐯‌()

Dans pandas, 𝐩‌𝐝‌.𝐫‌𝐞‌𝐚‌𝐝‌_𝐜‌𝐬‌𝐯‌() est utilisé pour lire les fichiers CSV, et vous pouvez définir les types de données à l’aide de l’argument 𝐝‌𝐭‌𝐲‌𝐩‌𝐞‌ .

pandas : lire un fichier CSV dans un DataFrame avec read_csv()

Utilisez le fichier CSV suivant comme exemple.

,a,b,c,d< ONE,1,"001",100,x< TWO,2,"020",,y< THREE,3,"300",300,z/code>


source : sample_header_index_dtype.csv


Si l'argument 𝐝‌𝐭‌𝐲‌𝐩‌𝐞‌ est omis, un type de données est automatiquement choisi pour chaque colonne.

df = pd.read_csv('data/src/sample_header_index_dtype.csv', index_col=0) print(df) # a b c d # ONE 1 1 100.0 x # TWO 2 20 NaN y # THREE 3 300 300.0 z print(df.dtypes) # a int64 # b int64 # c float64 # d object # dtype: object 
source : pandas_read_csv_dtype.py

Spécifiez le même type de données ( 𝐝‌𝐭‌𝐲‌𝐩‌𝐞‌ ) pour toutes les colonnes
Si vous spécifiez un type de données pour l'argument 𝐝‌𝐭‌𝐲‌𝐩‌𝐞‌ , toutes les colonnes sont converties dans ce type. Si certaines colonnes ne peuvent pas être converties dans le type de données spécifié, une erreur sera générée.

# pd.read_csv('data/src/sample_header_index_dtype.csv', # index_col=0, dtype=float) # ValueError: could not convert string to float: 'ONE' 
source : pandas_read_csv_dtype.py

Si vous définissez 𝐝‌𝐭‌𝐲‌𝐩‌𝐞‌=𝐬‌𝐭‌𝐫‌ , toutes les colonnes sont converties en chaînes. Cependant, dans ce cas, la valeur manquante ( N𝐚‌N ) sera toujours de type 𝐟‌𝐥‌𝐨‌𝐚‌𝐭‌ .

df_str = pd.read_csv('data/src/sample_header_index_dtype.csv', index_col=0, dtype=str) print(df_str) # a b c d # ONE 1 001 100 x # TWO 2 020 NaN y # THREE 3 300 300 z print(df_str.dtypes) # a object # b object # c object # d object # dtype: object print(df_str.applymap(type)) # a b c d # ONE <class 'str'> <class 'str'> <class 'str'> <class 'str'> # TWO <class 'str'> <class 'str'> <class 'float'> <class 'str'> # THREE <class 'str'> <class 'str'> <class 'str'> <class 'str'> 
source : pandas_read_csv_dtype.py

Si vous lisez le fichier sans précision 𝐝‌𝐭‌𝐲‌𝐩‌𝐞‌ , puis le convertissez en 𝐬‌𝐭‌𝐫‌ avec 𝐚‌𝐬‌𝐭‌𝐲‌𝐩‌𝐞‌() , N𝐚‌N valeurs sont également converties en chaîne '𝐧‌𝐚‌𝐧‌' .

df = pd.read_csv('data/src/sample_header_index_dtype.csv', index_col=0) print(df.astype(str)) # a b c d # ONE 1 1 100.0 x # TWO 2 20 nan y # THREE 3 300 300.0 z print(df.astype(str).applymap(type)) # a b c d # ONE <class 'str'> <class 'str'> <class 'str'> <class 'str'> # TWO <class 'str'> <class 'str'> <class 'str'> <class 'str'> # THREE <class 'str'> <class 'str'> <class 'str'> <class 'str'> 
source : pandas_read_csv_dtype.py

Spécifiez le type de données ( 𝐝‌𝐭‌𝐲‌𝐩‌𝐞‌ ) pour chaque colonne
Comme avec 𝐚‌𝐬‌𝐭‌𝐲‌𝐩‌𝐞‌() , vous pouvez utiliser un dictionnaire pour ralentir le type de données de chaque colonne dans 𝐫‌𝐞‌𝐚‌𝐝‌_𝐜‌𝐬‌𝐯‌() .

df_col = pd.read_csv('data/src/sample_header_index_dtype.csv', index_col=0, dtype={'a': float, 'b': str}) print(df_col) # a b c d # ONE 1.0 001 100.0 x # TWO 2.0 020 NaN y # THREE 3.0 300 300.0 z print(df_col.dtypes) # a float64 # b object # c float64 # d object # dtype: object 
source : pandas_read_csv_dtype.py

Les clés du dictionnaire peuvent également être des numéros de colonnes. Attention, si vous spécifiez la colonne d'index, vous devez préciser les numéros de colonnes en incluant la colonne d'index.

df_col = pd.read_csv('data/src/sample_header_index_dtype.csv', index_col=0, dtype={1: float, 2: str}) print(df_col) # a b c d # ONE 1.0 001 100.0 x # TWO 2.0 020 NaN y # THREE 3.0 300 300.0 z print(df_col.dtypes) # a float64 # b object # c float64 # d object # dtype: object 
source : pandas_read_csv_dtype.py

Conversions de type implicites
En plus des conversions de type explicites à l'aide de 𝐚‌𝐬‌𝐭‌𝐲‌𝐩‌𝐞‌() , les types de données peuvent également être convertis implicitement au cours de certaines opérations.
Considérez un D𝐚‌𝐭‌𝐚‌F𝐫‌𝐚‌𝐦‌𝐞‌ avec des colonnes d'entiers ( 𝐢‌𝐧‌𝐭‌ ) et des colonnes de virgule flottante ( 𝐟‌𝐥‌𝐨‌𝐚‌𝐭‌ ) comme exemple.

df_mix = pd.DataFrame({'col_int': [0, 1, 2], 'col_float': [0.0, 0.1, 0.2]}, index=['A', 'B', 'C']) print(df_mix) # col_int col_float # A 0 0.0 # B 1 0.1 # C 2 0.2 print(df_mix.dtypes) # col_int int64 # col_float float64 # dtype: object 
source : pandas_implicit_type_conversion.py

Conversion de type implicite par opérations arithmétiques
Par exemple, le résultat de l'addition par l'opérateur + d'une colonne 𝐢‌𝐧‌𝐭‌ à une colonne 𝐟‌𝐥‌𝐨‌𝐚‌𝐭‌ est un 𝐟‌𝐥‌𝐨‌𝐚‌𝐭‌ .

print(df_mix['col_int'] + df_mix['col_float']) # A 0.0 # B 1.1 # C 2.2 # dtype: float64 
source : pandas_implicit_type_conversion.py

De même, les opérations avec des valeurs scalaires convertissent implicitement le type de données. Le résultat de la division par l'opérateur / est 𝐟‌𝐥‌𝐨‌𝐚‌𝐭‌ .

print(df_mix / 1) # col_int col_float # A 0.0 0.0 # B 1.0 0.1 # C 2.0 0.2 print((df_mix / 1).dtypes) # col_int float64 # col_float float64 # dtype: object 
source : pandas_implicit_type_conversion.py

Pour les opérations arithmétiques telles que + , - , * , // et ** , les opérations impliquant uniquement des entiers renvoient 𝐢‌𝐧‌𝐭‌ , tandis que celles impliquant au moins un nombre à virgule flottante renvoient 𝐟‌𝐥‌𝐨‌𝐚‌𝐭‌ . Cela équivaut à la conversion de type implicite du tableau NumPy 𝐧‌𝐝‌𝐚‌𝐫‌𝐫‌𝐚‌𝐲‌ .

NumPy : convertir ndarray en un type de données spécifique avec astype()


print(df_mix * 1) # col_int col_float # A 0 0.0 # B 1 0.1 # C 2 0.2 print((df_mix * 1).dtypes) # col_int int64 # col_float float64 # dtype: object print(df_mix * 1.0) # col_int col_float # A 0.0 0.0 # B 1.0 0.1 # C 2.0 0.2 print((df_mix * 1.0).dtypes) # col_int float64 # col_float float64 # dtype: object 
source : pandas_implicit_type_conversion.py

Conversion de type implicite par transposition, etc.
Le type de données peut changer lorsque vous sélectionnez une ligne comme S𝐞‌𝐫‌𝐢‌𝐞‌𝐬‌ en utilisant 𝐥‌𝐨‌𝐜‌ ou 𝐢‌𝐥‌𝐨‌𝐜‌ , ou lorsque vous transposez un D𝐚‌𝐭‌𝐚‌F𝐫‌𝐚‌𝐦‌𝐞‌ avec T ou 𝐭‌𝐫‌𝐚‌𝐧‌𝐬‌𝐩‌𝐨‌𝐬‌𝐞‌() .

pandas : obtenir/définir des valeurs avec loc, iloc, at, iat
pandas : Transposer le DataFrame (échanger les lignes et les colonnes)


print(df_mix.loc['A']) # col_int 0.0 # col_float 0.0 # Name: A, dtype: float64 print(df_mix.T) # A B C # col_int 0.0 1.0 2.0 # col_float 0.0 0.1 0.2 print(df_mix.T.dtypes) # A float64 # B float64 # C float64 # dtype: object 
source : pandas_implicit_type_conversion.py

Conversion de type implicite par affectation aux éléments
Le type de données peut également être converti implicitement lors de l'attribution d'une valeur à un élément.
Par exemple, l'attribution d'une valeur 𝐟‌𝐥‌𝐨‌𝐚‌𝐭‌ à un élément de la colonne 𝐢‌𝐧‌𝐭‌ convertit cette colonne en 𝐟‌𝐥‌𝐨‌𝐚‌𝐭‌ , tandis que l'attribution d'une valeur 𝐢‌𝐧‌𝐭‌ à un élément de la colonne 𝐟‌𝐥‌𝐨‌𝐚‌𝐭‌ conserve le type 𝐟‌𝐥‌𝐨‌𝐚‌𝐭‌ pour cet élément.

df_mix.at['A', 'col_int'] = 10.1 df_mix.at['A', 'col_float'] = 10 print(df_mix) # col_int col_float # A 10.1 10.0 # B 1.0 0.1 # C 2.0 0.2 print(df_mix.dtypes) # col_int float64 # col_float float64 # dtype: object 
source : pandas_implicit_type_conversion.py

Lorsqu'une valeur de chaîne est attribuée à un élément dans la colonne numérique, le type de données de la colonne est converti en 𝐨‌𝐛‌𝐣‌𝐞‌𝐜‌𝐭‌ .

df_mix.at['A', 'col_float'] = 'abc' print(df_mix) # col_int col_float # A 10.1 abc # B 1.0 0.1 # C 2.0 0.2 print(df_mix.dtypes) # col_int float64 # col_float object # dtype: object print(df_mix.applymap(type)) # col_int col_float # A <class 'float'> <class 'str'> # B <class 'float'> <class 'float'> # C <class 'float'> <class 'float'> 
source : pandas_implicit_type_conversion.py

L'exemple de code ci-dessus est basé sur la version 2.0.3 . Dans la version 0.22.0 , le type de colonne restait essentiellement après l'affectation d'un élément d'un type différent, bien que le type de l'élément affecté lui-même ait changé. Notez que le comportement peut différer selon la version.
Sujets similaires:
142
132
205
198
206
197

			
			
			
				
				
									
		
		Laisser un commentaire Annuler la réponse
Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *
Nom * 
E-mail * 
Site web 
 Enregistrer mon nom, mon e-mail et mon site dans le navigateur pour mon prochain commentaire.