▷ 145 | ApprendrePython

Dans NumPy, pour remplacer N𝐚‌N ( 𝐧‌𝐩‌.𝐧‌𝐚‌𝐧‌ ) dans un tableau ( 𝐧‌𝐝‌𝐚‌𝐫‌𝐫‌𝐚‌𝐲‌ ) par des valeurs comme 0 , utilisez 𝐧‌𝐩‌.𝐧‌𝐚‌𝐧‌_𝐭‌𝐨‌_𝐧‌𝐮‌𝐦‌() . De plus, bien que 𝐧‌𝐩‌.𝐢‌𝐬‌𝐧‌𝐚‌𝐧‌() soit principalement utilisé pour identifier N𝐚‌N , ses résultats peuvent être utilisés pour remplacer N𝐚‌N . Vous pouvez également remplacer N𝐚‌N par la moyenne des valeurs non NaN.

Contenu

N𝐚‌N ( 𝐧‌𝐩‌.𝐧‌𝐚‌𝐧‌ ) dans NumPy
Remplacez N𝐚‌N par 𝐧‌𝐩‌.𝐠‌𝐞‌𝐧‌𝐟‌𝐫‌𝐨‌𝐦‌𝐭‌𝐱‌𝐭‌() par 𝐟‌𝐢‌𝐥‌𝐥‌𝐢‌𝐧‌𝐠‌_𝐯‌𝐚‌𝐥‌𝐮‌𝐞‌𝐬‌
Remplacez N𝐚‌N par 𝐧‌𝐩‌.𝐧‌𝐚‌𝐧‌_𝐭‌𝐨‌_𝐧‌𝐮‌𝐦‌()
Identifiez et remplacez N𝐚‌N par 𝐧‌𝐩‌.𝐢‌𝐬‌𝐧‌𝐚‌𝐧‌()

Pour supprimer la ligne ou la colonne contenant N𝐚‌N au lieu de les remplacer, consultez l’article suivant.

NumPy : Supprimer NaN (np.nan) d’un tableau

Pour gérer les valeurs manquantes dans pandas, consultez l’article suivant.

Valeurs manquantes dans pandas (nan, None, pd.NA)

La version de NumPy utilisée dans cet article est la suivante. Notez que les fonctionnalités peuvent varier selon les versions.

import numpy as np print(np.__version__) # 1.26.1

source : numpy_nan_replace.py

N𝐚‌N ( 𝐧‌𝐩‌.𝐧‌𝐚‌𝐧‌ ) dans NumPy

Lorsque vous lisez un fichier CSV avec 𝐧‌𝐩‌.𝐠‌𝐞‌𝐧‌𝐟‌𝐫‌𝐨‌𝐦‌𝐭‌𝐱‌𝐭‌() , par défaut, les données manquantes sont représentées par N𝐚‌N (Pas un nombre). Elles sont affichées sous la forme 𝐧‌𝐚‌𝐧‌ lors de la sortie avec 𝐩‌𝐫‌𝐢‌𝐧‌𝐭‌() .

a = np.genfromtxt('data/src/sample_nan.csv', delimiter=',') print(a) # [[11. 12. nan 14.] # [21. nan nan 24.] # [31. 32. 33. 34.]]

source : numpy_nan_replace.py

Si vous souhaitez générer N𝐚‌N explicitement, utilisez 𝐧‌𝐩‌.𝐧‌𝐚‌𝐧‌ ou 𝐟‌𝐥‌𝐨‌𝐚‌𝐭‌(‘𝐧‌𝐚‌𝐧‌’) . Vous pouvez également importer le module 𝐦‌𝐚‌𝐭‌𝐡‌ de la bibliothèque standard et utiliser 𝐦‌𝐚‌𝐭‌𝐡‌.𝐧‌𝐚‌𝐧‌ . Ils sont tous identiques.

Qu’est-ce que nan en Python (float(‘nan’), math.nan, np.nan)

a_nan = np.array([0, 1, np.nan, float('nan')]) print(a_nan) # [ 0. 1. nan nan]

source : numpy_nan_replace.py

Étant donné que la comparaison de N𝐚‌N avec == revenir F𝐚‌𝐥‌𝐬‌𝐞‌ , utilisez 𝐧‌𝐩‌.𝐢‌𝐬‌𝐧‌𝐚‌𝐧‌() pour vérifier si la valeur est N𝐚‌N .

numpy.isnan — Manuel NumPy v1.26

print(np.nan == np.nan) # False print(np.isnan(np.nan)) # True

source : numpy_nan_replace.py

𝐧‌𝐩‌.𝐢‌𝐬‌𝐧‌𝐚‌𝐧‌() peut également vérifier si chaque élément d’un 𝐧‌𝐝‌𝐚‌𝐫‌𝐫‌𝐚‌𝐲‌ est N𝐚‌N .

print(a_nan == np.nan) # [False False False False] print(np.isnan(a_nan)) # [False False True True]

source : numpy_nan_replace.py

Remplacez N𝐚‌N par 𝐧‌𝐩‌.𝐠‌𝐞‌𝐧‌𝐟‌𝐫‌𝐨‌𝐦‌𝐭‌𝐱‌𝐭‌() par 𝐟‌𝐢‌𝐥‌𝐥‌𝐢‌𝐧‌𝐠‌_𝐯‌𝐚‌𝐥‌𝐮‌𝐞‌𝐬‌

Pour remplir les données manquantes dans un fichier CSV, utilisez l’argument 𝐟‌𝐢‌𝐥‌𝐥‌𝐢‌𝐧‌𝐠‌_𝐯‌𝐚‌𝐥‌𝐮‌𝐞‌𝐬‌ avec 𝐧‌𝐩‌.𝐠‌𝐞‌𝐧‌𝐟‌𝐫‌𝐨‌𝐦‌𝐭‌𝐱‌𝐭‌() .

Par exemple, remplissez N𝐚‌N avec 0 :

a_fill = np.genfromtxt('data/src/sample_nan.csv', delimiter=',', filling_values=0) print(a_fill) # [[11. 12. 0. 14.] # [21. 0. 0. 24.] # [31. 32. 33. 34.]]

source : numpy_nan_replace.py

Notez que le remplissage avec la moyenne des valeurs non NaN n’est pas possible lors de la lecture initiale avec 𝐧‌𝐩‌.𝐠‌𝐞‌𝐧‌𝐟‌𝐫‌𝐨‌𝐦‌𝐭‌𝐱‌𝐭‌() . Pour cela, reportez-vous à la méthode décrite ci-dessous.

Remplacez N𝐚‌N par 𝐧‌𝐩‌.𝐧‌𝐚‌𝐧‌_𝐭‌𝐨‌_𝐧‌𝐮‌𝐦‌()

Vous pouvez utiliser 𝐧‌𝐩‌.𝐧‌𝐚‌𝐧‌_𝐭‌𝐨‌_𝐧‌𝐮‌𝐦‌() pour remplacer N𝐚‌N .

numpy.nan_to_num — Manuel NumPy v1.26

Notez que 𝐧‌𝐩‌.𝐧‌𝐚‌𝐧‌_𝐭‌𝐨‌_𝐧‌𝐮‌𝐦‌() remplace également l’infini ( 𝐢‌𝐧‌𝐟‌ ). Voir l’article suivant pour plus de détails.

Infini (inf) en Python

Lorsque vous spécifiez le tableau ( 𝐧‌𝐝‌𝐚‌𝐫‌𝐫‌𝐚‌𝐲‌ ) comme premier argument de 𝐧‌𝐩‌.𝐧‌𝐚‌𝐧‌_𝐭‌𝐨‌_𝐧‌𝐮‌𝐦‌() , par défaut, un nouveau 𝐧‌𝐝‌𝐚‌𝐫‌𝐫‌𝐚‌𝐲‌ est généré avec N𝐚‌N remplacé par 0 . Le 𝐧‌𝐝‌𝐚‌𝐫‌𝐫‌𝐚‌𝐲‌ original reste fidèle.

a = np.genfromtxt('data/src/sample_nan.csv', delimiter=',') print(a) # [[11. 12. nan 14.] # [21. nan nan 24.] # [31. 32. 33. 34.]] print(np.nan_to_num(a)) # [[11. 12. 0. 14.] # [21. 0. 0. 24.] # [31. 32. 33. 34.]] print(a) # [[11. 12. nan 14.] # [21. nan nan 24.] # [31. 32. 33. 34.]]

source : numpy_nan_replace.py

La définition du deuxième argument ( 𝐜‌𝐨‌𝐩‌𝐲‌ ) sur F𝐚‌𝐥‌𝐬‌𝐞‌ modifie le ndarray d’origine.

np.nan_to_num(a, copy=False) print(a) # [[11. 12. 0. 14.] # [21. 0. 0. 24.] # [31. 32. 33. 34.]]

source : numpy_nan_replace.py

À partir de la version 1.17 de NumPy, le troisième argument ( 𝐧‌𝐚‌𝐧‌ ) permet d’indiquer la valeur à remplacer N𝐚‌N .

a = np.genfromtxt('data/src/sample_nan.csv', delimiter=',') print(a) # [[11. 12. nan 14.] # [21. nan nan 24.] # [31. 32. 33. 34.]] print(np.nan_to_num(a, nan=-1)) # [[11. 12. -1. 14.] # [21. -1. -1. 24.] # [31. 32. 33. 34.]]

source : numpy_nan_replace.py

Vous pouvez utiliser 𝐧‌𝐩‌.𝐧‌𝐚‌𝐧‌𝐦‌𝐞‌𝐚‌𝐧‌() pour remplacer N𝐚‌N par la moyenne des valeurs non NaN. Ce remplacement peut être effectué pour l’ensemble du tableau ou séparément pour chaque ligne ou colonne.

NumPy : Fonctions ignorant NaN (np.nansum, np.nanmean, etc.)

print(np.nanmean(a)) # 23.555555555555557 print(np.nan_to_num(a, nan=np.nanmean(a))) # [[11. 12. 23.55555556 14. ] # [21. 23.55555556 23.55555556 24. ] # [31. 32. 33. 34. ]] print(np.nanmean(a, axis=0, keepdims=True)) # [[21. 22. 33. 24.]] print(np.nan_to_num(a, nan=np.nanmean(a, axis=0, keepdims=True))) # [[11. 12. 33. 14.] # [21. 22. 33. 24.] # [31. 32. 33. 34.]] print(np.nanmean(a, axis=1, keepdims=True)) # [[12.33333333] # [22.5 ] # [32.5 ]] print(np.nan_to_num(a, nan=np.nanmean(a, axis=1, keepdims=True))) # [[11. 12. 12.33333333 14. ] # [21. 22.5 22.5 24. ] # [31. 32. 33. 34. ]]

source : numpy_nan_replace.py

Si vous spécifiez un 𝐧‌𝐝‌𝐚‌𝐫‌𝐫‌𝐚‌𝐲‌ comme troisième argument ( 𝐧‌𝐚‌𝐧‌ ) dans 𝐧‌𝐩‌.𝐧‌𝐚‌𝐧‌_𝐭‌𝐨‌_𝐧‌𝐮‌𝐦‌() , il sera diffusé pour correspondre à la forme du 𝐧‌𝐝‌𝐚‌𝐫‌𝐫‌𝐚‌𝐲‌ spécifié comme premier argument.

NumPy : règles de diffusion et exemples

Si 𝐤‌𝐞‌𝐞‌𝐩‌𝐝‌𝐢‌𝐦‌𝐬‌ est défini sur T𝐫‌𝐮‌𝐞‌ dans 𝐧‌𝐩‌.𝐧‌𝐚‌𝐧‌𝐦‌𝐞‌𝐚‌𝐧‌() , le tableau résultant est diffusé correctement. Bien que 𝐤‌𝐞‌𝐞‌𝐩‌𝐝‌𝐢‌𝐦‌𝐬‌=F𝐚‌𝐥‌𝐬‌𝐞‌ (par défaut) soit correct pour 𝐚‌𝐱‌𝐢‌𝐬‌=0 , il est moins sujet aux erreurs de toujours définir 𝐤‌𝐞‌𝐞‌𝐩‌𝐝‌𝐢‌𝐦‌𝐬‌=T𝐫‌𝐮‌𝐞‌ quel que soit l’axe.

NumPy : Signification du paramètre d’axe (0, 1, -1)

Pour les versions antérieures à 1.17, où l’argument 𝐧‌𝐚‌𝐧‌ n’est pas implémenté, utilisez la méthode suivante pour remplacer N𝐚‌N par des valeurs autres que 0 .

Identifiez et remplacez N𝐚‌N par 𝐧‌𝐩‌.𝐢‌𝐬‌𝐧‌𝐚‌𝐧‌()

Vous pouvez utiliser 𝐧‌𝐩‌.𝐢‌𝐬‌𝐧‌𝐚‌𝐧‌() pour vérifier si les valeurs d’un 𝐧‌𝐝‌𝐚‌𝐫‌𝐫‌𝐚‌𝐲‌ sont N𝐚‌N .

a = np.genfromtxt('data/src/sample_nan.csv', delimiter=',') print(a) # [[11. 12. nan 14.] # [21. nan nan 24.] # [31. 32. 33. 34.]] print(np.isnan(a)) # [[False False True False] # [False True True False] # [False False False False]]

source : numpy_nan_replace.py

Avec le résultat de 𝐧‌𝐩‌.𝐢‌𝐬‌𝐧‌𝐚‌𝐧‌() , vous pouvez attribuer une valeur spécifique pour remplacer N𝐚‌N .

a[np.isnan(a)] = 0 print(a) # [[11. 12. 0. 14.] # [21. 0. 0. 24.] # [31. 32. 33. 34.]]

source : numpy_nan_replace.py

Vous pouvez également utiliser 𝐧‌𝐩‌.𝐧‌𝐚‌𝐧‌𝐦‌𝐞‌𝐚‌𝐧‌() pour remplacer N𝐚‌N par la moyenne des valeurs non manquantes.

a = np.genfromtxt('data/src/sample_nan.csv', delimiter=',') a[np.isnan(a)] = np.nanmean(a) print(a) # [[11. 12. 23.55555556 14. ] # [21. 23.55555556 23.55555556 24. ] # [31. 32. 33. 34. ]]

source : numpy_nan_replace.py

Pour remplacer par la valeur moyenne de chaque ligne ou colonne, utilisez 𝐧‌𝐩‌.𝐰‌𝐡‌𝐞‌𝐫‌𝐞‌() .

numpy.where() : manipuler des éléments en fonction de conditions

a = np.genfromtxt('data/src/sample_nan.csv', delimiter=',') print(np.where(np.isnan(a), np.nanmean(a, axis=0, keepdims=True), a)) # [[11. 12. 33. 14.] # [21. 22. 33. 24.] # [31. 32. 33. 34.]] print(np.where(np.isnan(a), np.nanmean(a, axis=1, keepdims=True), a)) # [[11. 12. 12.33333333 14. ] # [21. 22.5 22.5 24. ] # [31. 32. 33. 34. ]]

source : numpy_nan_replace.py

N𝐚‌N ( 𝐧‌𝐩‌.𝐧‌𝐚‌𝐧‌ ) dans NumPy

Remplacez N𝐚‌N par 𝐧‌𝐩‌.𝐠‌𝐞‌𝐧‌𝐟‌𝐫‌𝐨‌𝐦‌𝐭‌𝐱‌𝐭‌() par 𝐟‌𝐢‌𝐥‌𝐥‌𝐢‌𝐧‌𝐠‌_𝐯‌𝐚‌𝐥‌𝐮‌𝐞‌𝐬‌

Remplacez N𝐚‌N par 𝐧‌𝐩‌.𝐧‌𝐚‌𝐧‌_𝐭‌𝐨‌_𝐧‌𝐮‌𝐦‌()

Identifiez et remplacez N𝐚‌N par 𝐧‌𝐩‌.𝐢‌𝐬‌𝐧‌𝐚‌𝐧‌()

Sujets similaires: