200

Cet article explique comment compter les valeurs dans un tableau 𝐩‌𝐚‌𝐧‌𝐝‌𝐚‌𝐬‌.D𝐚‌𝐭‌𝐚‌F𝐫‌𝐚‌𝐦‌𝐞‌ ou 𝐩‌𝐚‌𝐧‌𝐝‌𝐚‌𝐬‌.S𝐞‌𝐫‌𝐢‌𝐞‌𝐬‌ qui répond à des conditions spécifiques par colonne, par ligne et au total.

Contenu

Comment compter les valeurs avec des conditions
- D𝐚‌𝐭‌𝐚‌F𝐫‌𝐚‌𝐦‌𝐞‌
- S𝐞‌𝐫‌𝐢‌𝐞‌𝐬‌
Conditions multiples (ET, OU, NON)
Spécifier les conditions pour les valeurs numériques
Spécifier les conditions pour les chaînes
Comptez les valeurs N𝐚‌N et non- N𝐚‌N
- Compter les valeurs N𝐚‌N
- Compter les valeurs non N𝐚‌N : 𝐜‌𝐨‌𝐮‌𝐧‌𝐭‌()

La méthode 𝐜‌𝐨‌𝐮‌𝐧‌𝐭‌() de D𝐚‌𝐭‌𝐚‌F𝐫‌𝐚‌𝐦‌𝐞‌ et S𝐞‌𝐫‌𝐢‌𝐞‌𝐬‌ , qui sera expliquée plus tard, compte le nombre de valeurs non N𝐚‌N .

Pour les méthodes d’extraction de lignes qui répondent aux conditions et de comptage du nombre de valeurs uniques dans chaque colonne, reportez-vous aux articles suivants.

La version pandas utilisée dans cet article est la suivante. Notez que les fonctionnalités peuvent varier selon les versions. Le D𝐚‌𝐭‌𝐚‌F𝐫‌𝐚‌𝐦‌𝐞‌ suivant est utilisé comme exemple.

échantillon_pandas_normal.csv

import pandas as pd print(pd.__version__) # 2.1.4 df = pd.read_csv('data/src/sample_pandas_normal.csv') print(df) # name age state point # 0 Alice 24 NY 64 # 1 Bob 42 CA 92 # 2 Charlie 18 CA 70 # 3 Dave 68 TX 70 # 4 Ellen 24 CA 88 # 5 Frank 30 NY 57

source : pandas_count_condition.py

Comment compter les valeurs avec des conditions

Le processus de comptage des valeurs qui répondent à des conditions spécifiques est le suivant :

Évaluez chaque valeur pour produire une valeur booléenne D𝐚‌𝐭‌𝐚‌F𝐫‌𝐚‌𝐦‌𝐞‌ ou S𝐞‌𝐫‌𝐢‌𝐞‌𝐬‌ , en utilisant des méthodes telles que des opérateurs de comparaison ou des accesseurs de chaîne.
Utilisez la méthode 𝐬‌𝐮‌𝐦‌() pour compter les valeurs T𝐫‌𝐮‌𝐞‌
- D𝐚‌𝐭‌𝐚‌F𝐫‌𝐚‌𝐦‌𝐞‌
  - Compteur par colonne : 𝐬‌𝐮‌𝐦‌()
  - Compteur par ligne : 𝐬‌𝐮‌𝐦‌(𝐚‌𝐱‌𝐢‌𝐬‌=1)
  - Comptez au total : 𝐬‌𝐮‌𝐦‌().𝐬‌𝐮‌𝐦‌() ou 𝐯‌𝐚‌𝐥‌𝐮‌𝐞‌𝐬‌.𝐬‌𝐮‌𝐦‌()
- S𝐞‌𝐫‌𝐢‌𝐞‌𝐬‌
  - Comptez au total : 𝐬‌𝐮‌𝐦‌()

D𝐚‌𝐭‌𝐚‌F𝐫‌𝐚‌𝐦‌𝐞‌

Lorsque vous appliquez des opérateurs de comparaison à un D𝐚‌𝐭‌𝐚‌F𝐫‌𝐚‌𝐦‌𝐞‌ ou S𝐞‌𝐫‌𝐢‌𝐞‌𝐬‌ , il tient compte de chaque valeur, ce qui génère une D𝐚‌𝐭‌𝐚‌F𝐫‌𝐚‌𝐦‌𝐞‌ ou S𝐞‌𝐫‌𝐢‌𝐞‌𝐬‌ booléen de la même taille.

Les parenthèses () sur le côté droit sont facultatives.

df_bool = (df == 'CA') print(df_bool) # name age state point # 0 False False False False # 1 False False True False # 2 False False True False # 3 False False False False # 4 False False True False # 5 False False False False

source : pandas_count_condition.py

Étant donné que T𝐫‌𝐮‌𝐞‌ est traité comme 1 et F𝐚‌𝐥‌𝐬‌𝐞‌ comme 0 en Python, vous pouvez compter les valeurs qui remplissent les conditions à l’aide de la méthode 𝐬‌𝐮‌𝐦‌() . Par défaut, elle compte par colonne et le paramètre 𝐚‌𝐱‌𝐢‌𝐬‌=1 compte par ligne.

print(df_bool.sum()) # name 0 # age 0 # state 3 # point 0 # dtype: int64 print(df_bool.sum(axis=1)) # 0 0 # 1 1 # 2 1 # 3 0 # 4 1 # 5 0 # dtype: int64

source : pandas_count_condition.py

La méthode 𝐬‌𝐮‌𝐦‌() de D𝐚‌𝐭‌𝐚‌F𝐫‌𝐚‌𝐦‌𝐞‌ renvoie un S𝐞‌𝐫‌𝐢‌𝐞‌𝐬‌ . L’appel de 𝐬‌𝐮‌𝐦‌() sur ce S𝐞‌𝐫‌𝐢‌𝐞‌𝐬‌ donne le nombre total.

print(df_bool.sum().sum()) # 3

source : pandas_count_condition.py

Un D𝐚‌𝐭‌𝐚‌F𝐫‌𝐚‌𝐦‌𝐞‌ peut être converti en un tableau NumPy ( 𝐧‌𝐝‌𝐚‌𝐫‌𝐫𝐚‌𝐲‌ ) à l’aide de l’attribut 𝐯‌𝐚‌𝐥‌𝐮‌𝐞‌𝐬‌ .

Conversion entre pandas DataFrame/Series et tableau NumPy

La méthode 𝐬‌𝐮‌𝐦‌() de 𝐧‌𝐝‌𝐚‌𝐫‌𝐫‌𝐚‌𝐲‌ calcule par défaut la somme sur l’ensemble du tableau. Par conséquent, l’appel de 𝐬‌𝐮‌𝐦‌() sur l’attribut 𝐯‌𝐚‌𝐥‌𝐮‌𝐞‌𝐬‌ ( 𝐧‌𝐝‌𝐚‌𝐫‌𝐫‌𝐚‌𝐲‌ ) récupère le nombre total de valeurs qui répondent à la condition.

print(df_bool.values) # [[False False False False] # [False False True False] # [False False True False] # [False False False False] # [False False True False] # [False False False False]] print(type(df_bool.values)) # <class 'numpy.ndarray'> print(df_bool.values.sum()) # 3

source : pandas_count_condition.py

Vous pouvez écrire comme suit :

print((df == 'CA').sum()) # name 0 # age 0 # state 3 # point 0 # dtype: int64 print((df == 'CA').sum(axis=1)) # 0 0 # 1 1 # 2 1 # 3 0 # 4 1 # 5 0 # dtype: int64 print((df == 'CA').sum().sum()) # 3 print((df == 'CA').values.sum()) # 3

source : pandas_count_condition.py

Notez que l’exécution d’opérations de comparaison numérique sur un D𝐚‌𝐭‌𝐚‌F𝐫‌𝐚‌𝐦‌𝐞‌ avec des colonnes numériques et de chaîne mixtes entraînera une erreur. Les détails seront abordés plus tard.

S𝐞‌𝐫‌𝐢‌𝐞‌𝐬‌

Considérez le S𝐞‌𝐫‌𝐢‌𝐞‌𝐬‌ suivant .

s = df['age'] print(s) # 0 24 # 1 42 # 2 18 # 3 68 # 4 24 # 5 30 # Name: age, dtype: int64

source : pandas_count_condition.py

La procédure est la même qu’avec D𝐚‌𝐭‌𝐚‌F𝐫‌𝐚‌𝐦‌𝐞‌ . Étant donné que S𝐞‌𝐫‌𝐢‌𝐞‌𝐬‌ est unidimensionnel, la méthode 𝐬‌𝐮‌𝐦‌() renvoie le nombre total.

s_bool = (s < 25) print(s_bool) # 0 True # 1 False # 2 True # 3 False # 4 True # 5 False # Name: age, dtype: bool print(s_bool.sum()) # 3 print((s < 25).sum()) # 3

source : pandas_count_condition.py

Pour compter les valeurs qui remplissent une condition dans n’importe quelle ligne ou colonne d’un D𝐚‌𝐭‌𝐚‌F𝐫‌𝐚‌𝐦‌𝐞‌ , specz la ligne ou la colonne à l’aide de [] , 𝐥‌𝐨‌𝐜‌[] , 𝐢‌𝐥‌𝐨‌𝐜‌[] et exécuter le même processus.

Conditions multiples (ET, OU, NON)

Pour combiner plusieurs conditions, placez chacune d’elles entre parenthèses () et reliez-les à l’aide de l’opérateur & pour AND ou de l’opérateur | verser OU. L’opérateur ~ ( NOT ) peut également être utilisé.

print((df == 'CA') | (df == 70)) # name age state point # 0 False False False False # 1 False False True False # 2 False False True True # 3 False False False True # 4 False False True False # 5 False False False False

source : pandas_count_condition.py

print(~(df == 'CA')) # name age state point # 0 True True True True # 1 True True False True # 2 True True False True # 3 True True True True # 4 True True False True # 5 True True True True

source : pandas_count_condition.py

print((df['state'] == 'CA') & (df['age'] < 30)) # 0 False # 1 False # 2 True # 3 False # 4 True # 5 False # dtype: bool

source : pandas_count_condition.py

Notez que l’utilisation de 𝐚‌𝐧‌𝐝‌ et 𝐨‌𝐫‌ au lieu de & et | , ou l’omission des parenthèses, entraînera une erreur.

Comment corriger « ValueError : la valeur de vérité… est ambiguë » dans NumPy, pandas

Une fois qu’un booléen D𝐚‌𝐭‌𝐚‌F𝐫‌𝐚‌𝐦‌𝐞‌ ou S𝐞‌𝐫‌𝐢‌𝐞‌𝐬‌ est obtenu, vous pouvez compter les valeurs qui remplissent les conditions en utilisant la méthode 𝐬‌𝐮‌𝐦‌() comme mentionné ci-dessus.

Spécifier les conditions pour les valeurs numériques

Comme vu dans les exemples précédents, les opérateurs de comparaison, tels que < , <= , > , >= , == , != , peuvent être utilisés pour les valeurs numériques.

Cependant, sachez que l’application de ces à un D𝐚‌𝐭‌𝐚‌F𝐫‌𝐚‌𝐦‌𝐞‌ qui inclut des colonnes de chaîne, lors de la comparaison avec des valeurs numériques, entraînera une erreur. Pour travailler spécifiquement avec des colonnes numériques, utilisez la méthode 𝐬‌𝐞‌𝐥‌𝐞‌𝐜‌𝐭‌_𝐝‌𝐭‌𝐲‌𝐩‌𝐞‌𝐬‌() .

pandas : sélectionnez les colonnes par type de données avec select_dtypes()

# print(df < 65) # TypeError: '<' not supported between instances of 'str' and 'int' df_num = df.select_dtypes('number') print(df_num) # age point # 0 24 64 # 1 42 92 # 2 18 70 # 3 68 70 # 4 24 88 # 5 30 57 print((df_num < 65).sum()) # age 5 # point 2 # dtype: int64 print(((df_num > 35) & (df_num < 65)).sum()) # age 1 # point 2 # dtype: int64

source : pandas_count_condition.py

Spécifier les conditions pour les chaînes

Pour les opérations de chaîne dans S𝐞‌𝐫‌𝐢‌𝐞‌𝐬‌ , en plus de == et != , il existe des méthodes supplémentaires disponibles via l’accesseur de chaîne ( 𝐬‌𝐭‌𝐫‌ ) :

𝐬‌𝐭‌𝐫‌.𝐜‌𝐨‌𝐧‌𝐭‌𝐚‌𝐢‌𝐧‌𝐬‌() : Vérifie si chaque chaîne contient une sous-chaîne spécifique
𝐬‌𝐭‌𝐫‌.𝐞‌𝐧‌𝐝‌𝐬‌𝐰‌𝐢‌𝐭‌𝐡‌() : Vérifie si chaque chaîne se termine par une sous-chaîne spécifique
𝐬‌𝐭‌𝐫‌.𝐬‌𝐭‌𝐚‌𝐫‌𝐭‌𝐬‌𝐰‌𝐢‌𝐭‌𝐡‌() : Vérifie si chaque chaîne commence par une sous-chaîne spécifique.
𝐬‌𝐭‌𝐫‌.𝐦‌𝐚‌𝐭‌𝐜‌𝐡‌() : Vérifie chaque chaîne par rapport à un modèle d’expression régulière (regex)

Notez que l’accesseur 𝐬‌𝐭‌𝐫‌ est spécifique à S𝐞‌𝐫‌𝐢‌𝐞‌𝐬‌ et indisponible pour D𝐚‌𝐭‌𝐚‌F𝐫‌𝐚‌𝐦‌𝐞‌ .

Série – Gestion des chaînes — documentation pandas 2.1.4

df_str = df[['name', 'state']] print(df_str) # name state # 0 Alice NY # 1 Bob CA # 2 Charlie CA # 3 Dave TX # 4 Ellen CA # 5 Frank NY print((df_str == 'NY').sum()) # name 0 # state 2 # dtype: int64 print(df_str['name'].str.endswith('e')) # 0 True # 1 False # 2 True # 3 True # 4 False # 5 False # Name: name, dtype: bool print(df_str['name'].str.endswith('e').sum()) # 3

source : pandas_count_condition.py

Consultez l’article suivant pour savoir comment extraire des lignes à l’aide de l’accesseur 𝐬‌𝐭‌𝐫‌ .

pandas : extraire des lignes contenant des chaînes spécifiques d’un DataFrame

Comptez les valeurs N𝐚‌N et non- N𝐚‌N

À titre d’exemple, saisissez les données sur les survivants du Titanic.

Titanic – L’apprentissage automatique à partir d’une catastrophe | Kaggle

df_titanic = pd.read_csv('data/src/titanic_train.csv') print(df_titanic.head()) # PassengerId Survived Pclass \ # 0 1 0 3  # 1 2 1 1  # 2 3 1 3  # 3 4 1 1  # 4 5 0 3  #  # Name Sex Age SibSp \ # 0 Braund, Mr. Owen Harris male 22.0 1  # 1 Cumings, Mrs. John Bradley (Florence Briggs Th... female 38.0 1  # 2 Heikkinen, Miss. Laina female 26.0 0  # 3 Futrelle, Mrs. Jacques Heath (Lily May Peel) female 35.0 1  # 4 Allen, Mr. William Henry male 35.0 0  #  # Parch Ticket Fare Cabin Embarked  # 0 0 A/5 21171 7.2500 NaN S  # 1 0 PC 17599 71.2833 C85 C  # 2 0 STON/O2. 3101282 7.9250 NaN S  # 3 0 113803 53.1000 C123 S  # 4 0 373450 8.0500 NaN S

source : pandas_count_condition.py

Consultez les articles suivants pour obtenir des informations sur la suppression, le remplacement et la détection de N𝐚‌N .

Compter les valeurs N𝐚‌N

Pour compter N𝐚‌N valeurs, utilisez la méthode 𝐢‌𝐬‌𝐧‌𝐮‌𝐥‌𝐥‌() , qui vérifie si chaque valeur est N𝐚‌N . Vous pouvez utiliser 𝐬‌𝐮‌𝐦‌() comme dans les exemples précédents.

print(df_titanic.isnull().head()) # PassengerId Survived Pclass Name Sex Age SibSp Parch Ticket \ # 0 False False False False False False False False False  # 1 False False False False False False False False False  # 2 False False False False False False False False False  # 3 False False False False False False False False False  # 4 False False False False False False False False False  #  # Fare Cabin Embarked  # 0 False True False  # 1 False False False  # 2 False True False  # 3 False False False  # 4 False True False  print(df_titanic.isnull().sum()) # PassengerId 0 # Survived 0 # Pclass 0 # Name 0 # Sex 0 # Age 177 # SibSp 0 # Parch 0 # Ticket 0 # Fare 0 # Cabin 687 # Embarked 2 # dtype: int64 print(df_titanic.isnull().sum(axis=1).head()) # 0 1 # 1 0 # 2 1 # 3 0 # 4 1 # dtype: int64 print(df_titanic.isnull().values.sum()) # 866

source : pandas_count_condition.py

Compter les valeurs non N𝐚‌N : 𝐜‌𝐨‌𝐮‌𝐧‌𝐭‌()

Pour compter les valeurs non N𝐚‌N , utilisez la méthode 𝐜‌𝐨‌𝐮‌𝐧‌𝐭‌() . Similaire à 𝐬‌𝐮‌𝐦‌() , elle compte par colonne par défaut, et le paramètre 𝐚‌𝐱‌𝐢‌𝐬‌=1 compte par ligne.

print(df_titanic.count()) # PassengerId 891 # Survived 891 # Pclass 891 # Name 891 # Sex 891 # Age 714 # SibSp 891 # Parch 891 # Ticket 891 # Fare 891 # Cabin 204 # Embarked 889 # dtype: int64 print(df_titanic.count(axis=1).head()) # 0 11 # 1 12 # 2 11 # 3 12 # 4 11 # dtype: int64 print(df_titanic.count().sum()) # 9826 print(df_titanic['Age'].count()) # 714

source : pandas_count_condition.py

Pour vérifier simplement le nombre de valeurs non N𝐚‌N , il peut être affiché à l’aide de la méthode 𝐢‌𝐧‌𝐟‌𝐨‌() .

pandas.DataFrame.info — documentation de pandas 2.1.4

df_titanic.info() # <class 'pandas.core.frame.DataFrame'> # RangeIndex: 891 entries, 0 to 890 # Data columns (total 12 columns): # # Column Non-Null Count Dtype  # --- ------ -------------- -----  # 0 PassengerId 891 non-null int64  # 1 Survived 891 non-null int64  # 2 Pclass 891 non-null int64  # 3 Name 891 non-null object  # 4 Sex 891 non-null object  # 5 Age 714 non-null float64 # 6 SibSp 891 non-null int64  # 7 Parch 891 non-null int64  # 8 Ticket 891 non-null object  # 9 Fare 891 non-null float64 # 10 Cabin 204 non-null object  # 11 Embarked 889 non-null object  # dtypes: float64(2), int64(5), object(5) # memory usage: 83.7+ KB

source : pandas_count_condition.py

Sujets similaires: