213

Dans pandas, la méthode 𝐠‌𝐫‌𝐨‌𝐮‌𝐩‌𝐛‌𝐲‌() permet de regrouper les données dans D𝐚‌𝐭‌𝐚‌F𝐫‌𝐚‌𝐦‌𝐞‌ et S𝐞‌𝐫‌𝐢‌𝐞‌𝐬‌ .

Cette méthode permet d’agréger des données par groupe pour calculer des mesures statistiques telles que des moyennes, des minimums, des maximums et des totaux, ou pour appliquer des fonctions.

Contenu

Utilisation de base de 𝐠‌𝐫‌𝐨‌𝐮‌𝐩‌𝐛‌𝐲‌()
Grouper par plusieurs colonnes
Spécifiez si vous souhaitez utiliser les noms de colonnes comme index : 𝐚‌𝐬‌_𝐢‌𝐧‌𝐝‌𝐞‌𝐱‌
Gérer les valeurs manquantes N𝐚‌N : 𝐝‌𝐫‌𝐨‌𝐩‌𝐧‌𝐚‌
Obtention des données dans chaque groupe : 𝐠‌𝐞‌𝐭‌_𝐠‌𝐫‌𝐨‌𝐮‌𝐩‌()
Appliquer plusieurs processus : 𝐚‌𝐠‌𝐠‌()
Calculer plusieurs statistiques : 𝐝‌𝐞‌𝐬‌𝐜‌𝐫‌𝐢‌𝐛‌𝐞‌()
Appliquez n’importe quelle fonction à chaque groupe : 𝐚‌𝐩‌𝐩‌𝐥‌𝐲‌()

La version pandas utilisée dans cet article est la suivante. Notez que les fonctionnalités peuvent varier selon les versions. Le D𝐚‌𝐭‌𝐚‌F𝐫‌𝐚‌𝐦‌𝐞‌ suivant est utilisé comme exemple.

import pandas as pd print(pd.__version__) # 2.1.2 df = pd.DataFrame( {'c_0': ['A', 'A', 'B', 'B', 'B', 'B'], 'c_1': ['X', 'Y', 'X', 'Y', 'X', 'Y'], 'c_2': [0, 1, 4, 9, 16, 25], 'c_3': [125, 64, 27, 16, 1, 0]}, index=['r_0', 'r_1', 'r_2', 'r_3', 'r_4', 'r_5'] ) print(df) # c_0 c_1 c_2 c_3 # r_0 A X 0 125 # r_1 A Y 1 64 # r_2 B X 4 27 # r_3 B Y 9 16 # r_4 B X 16 1 # r_5 B Y 25 0

source : pandas_groupby_statistics.py

Utilisation de base de 𝐠‌𝐫‌𝐨‌𝐮‌𝐩‌𝐛‌𝐲‌()

Vous pouvez regrouper des données à l’aide de la méthode 𝐠‌𝐫‌𝐨‌𝐮‌𝐩‌𝐛‌𝐲‌() , qui est fournie dans D𝐚‌𝐭‌𝐚‌F𝐫‌𝐚‌𝐦‌𝐞‌ et S𝐞‌𝐫‌𝐢‌𝐞‌𝐬‌ .

Lorsque vous spécifiez des noms de colonne dans le premier argument, 𝐛‌𝐲‌ , les données sont regroupées selon les valeurs de cette colonne. Un objet G𝐫‌𝐨‌𝐮‌𝐩‌B𝐲‌ est renvoyé, qui n’affiche pas son contenu lors de l’impression.

grouped = df.groupby('c_0') print(grouped) # <pandas.core.groupby.generic.DataFrameGroupBy object at 0x1272139d0> print(type(grouped)) # <class 'pandas.core.groupby.generic.DataFrameGroupBy'>

source : pandas_groupby_statistics.py

Vous pouvez traiter chaque groupe en exécutant des méthodes sur l’objet G𝐫‌𝐨‌𝐮‌𝐩‌B𝐲‌ .

Par exemple, la méthode 𝐦‌𝐞‌𝐚‌𝐧‌() calcule la moyenne de chaque groupe. Si l’argument 𝐧‌𝐮‌𝐦‌𝐞‌𝐫‌𝐢‌𝐜‌_𝐨‌𝐧‌𝐥‌𝐲‌ est défini sur T𝐫‌𝐮‌𝐞‌ , les colonnes non numériques sont ignore. Une valeur D𝐚‌𝐭‌𝐚‌F𝐫‌𝐚‌𝐦‌𝐞‌ est renvoyée.

df_mean = grouped.mean(numeric_only=True) print(df_mean) # c_2 c_3 # c_0  # A 0.5 94.5 # B 13.5 11.0 print(type(df_mean)) # <class 'pandas.core.frame.DataFrame'>

source : pandas_groupby_statistics.py

Il est également possible d’écrire 𝐠‌𝐫‌𝐨‌𝐮‌𝐩‌𝐛‌𝐲‌() et ses méthodes successivement.

print(df.groupby('c_0').mean(numeric_only=True)) # c_2 c_3 # c_0  # A 0.5 94.5 # B 13.5 11.0 print(df.groupby('c_1').mean(numeric_only=True)) # c_2 c_3 # c_1  # X 6.666667 51.000000 # Y 11.666667 26.666667

source : pandas_groupby_statistics.py

L’application de [𝐜‌𝐨‌𝐥‌𝐮‌𝐦‌𝐧‌_𝐧‌𝐚‌𝐦‌𝐞‌] ou [𝐥‌𝐢‌𝐬‌𝐭‌_𝐨‌𝐟‌_𝐜‌𝐨‌ 𝐥‌𝐮‌𝐦‌𝐧‌_𝐧‌𝐚‌𝐦‌𝐞‌𝐬‌] à l’objet G𝐫‌𝐨‌𝐮‌𝐩‌B𝐲‌ cible uniquement celles des colonnes à traiter. Ceci est utile lorsqu’il ya des colonnes inutiles.

print(df.groupby('c_0')['c_2'].mean()) # c_0 # A 0.5 # B 13.5 # Name: c_2, dtype: float64 print(df.groupby('c_0')[['c_2', 'c_3']].mean()) # c_2 c_3 # c_0  # A 0.5 94.5 # B 13.5 11.0

source : pandas_groupby_statistics.py

En plus de 𝐦‌𝐞‌𝐚‌𝐧‌() , il existe différentes méthodes telles que 𝐬‌𝐮‌𝐦‌() pour calculer les totaux et 𝐜‌𝐨‌𝐮‌𝐧‌𝐭‌() pour compter les valeurs non manquantes.

print(df.groupby('c_0').sum(numeric_only=True)) # c_2 c_3 # c_0  # A 1 189 # B 54 44 print(df.groupby('c_0').count()) # c_1 c_2 c_3 # c_0  # A 2 2 2 # B 4 4 4

source : pandas_groupby_statistics.py

Pour une liste des méthodes disponibles, reportez-vous à la documentation officielle.

GroupBy — Documentation pandas 2.1.3

La méthode 𝐚‌𝐠‌𝐠‌() pour appliquer plusieurs processus, 𝐝‌𝐞‌𝐬‌𝐜‌𝐫‌𝐢‌𝐛‌𝐞‌() pour calculer plusieurs statistiques à la fois et 𝐚‌𝐩‌𝐩‌𝐥‌𝐲‌() pour appliquer n’importe quelle fonction à chaque groupe sont décrites plus loin.

Grouper par plusieurs colonnes

Lorsqu’une liste de noms de colonnes est spécifiée comme premier argument dans 𝐠‌𝐫‌𝐨‌𝐮‌𝐩‌𝐛‌𝐲‌() , le regroupement peut être effectué à l’aide de plusieurs colonnes.

print(df.groupby(['c_0', 'c_1']).mean()) # c_2 c_3 # c_0 c_1  # A X 0.0 125.0 # Y 1.0 64.0 # B X 10.0 14.0 # Y 17.0 8.0

source : pandas_groupby_statistics.py

Un D𝐚‌𝐭‌𝐚‌F𝐫‌𝐚‌𝐦‌𝐞‌ multi-index est renvoyé.

MultiIndex / indexation avancée — documentation pandas 2.1.3

Spécifiez si vous souhaitez utiliser les noms de colonnes comme index : 𝐚‌𝐬‌_𝐢‌𝐧‌𝐝‌𝐞‌𝐱‌

Par défaut, les noms de colonnes spécifiés comme premier argument dans 𝐠‌𝐫‌𝐨‌𝐮‌𝐩‌𝐛‌𝐲‌() deviennent les 𝐢‌𝐧‌𝐝‌𝐞‌𝐱‌ du résultat . La définition de l’argument 𝐚‌𝐬‌_𝐢‌𝐧‌𝐝‌𝐞‌𝐱‌ sur F𝐚‌𝐥‌𝐬‌𝐞‌ empêche cela.

print(df.groupby('c_0', as_index=False).mean(numeric_only=True)) # c_0 c_2 c_3 # 0 A 0.5 94.5 # 1 B 13.5 11.0 print(df.groupby(['c_0', 'c_1'], as_index=False).mean()) # c_0 c_1 c_2 c_3 # 0 A X 0.0 125.0 # 1 A Y 1.0 64.0 # 2 B X 10.0 14.0 # 3 B Y 17.0 8.0

source : pandas_groupby_statistics.py

Gérer les valeurs manquantes N𝐚‌N : 𝐝‌𝐫‌𝐨‌𝐩‌𝐧‌𝐚‌

Si la colonne spécifique comme premier argument dans 𝐠‌𝐫‌𝐨‌𝐮‌𝐩‌𝐛‌𝐲‌() contient des valeurs manquantes N𝐚‌N , ces lignes sont ignorées par défaut. La définition de l’argument 𝐝‌𝐫‌𝐨‌𝐩‌𝐧‌𝐚‌ sur F𝐚‌𝐥‌𝐬‌𝐞‌ traite N𝐚‌N comme une clé.

df_nan = df.copy() df_nan.iloc[0, 1] = float('nan') df_nan.iloc[5, 1] = float('nan') print(df_nan) # c_0 c_1 c_2 c_3 # r_0 A NaN 0 125 # r_1 A Y 1 64 # r_2 B X 4 27 # r_3 B Y 9 16 # r_4 B X 16 1 # r_5 B NaN 25 0 print(df_nan.groupby(['c_0', 'c_1']).mean()) # c_2 c_3 # c_0 c_1  # A Y 1.0 64.0 # B X 10.0 14.0 # Y 9.0 16.0 print(df_nan.groupby(['c_0', 'c_1'], dropna=False).mean()) # c_2 c_3 # c_0 c_1  # A Y 1.0 64.0 # NaN 0.0 125.0 # B X 10.0 14.0 # Y 9.0 16.0 # NaN 25.0 0.0

source : pandas_groupby_statistics.py

Consultez l’article suivant pour gérer les valeurs manquantes dans pandas.

Valeurs manquantes dans pandas (nan, None, pd.NA)

Obtention des données dans chaque groupe : 𝐠‌𝐞‌𝐭‌_𝐠‌𝐫‌𝐨‌𝐮‌𝐩‌()

Vous pouvez obtenir des données de chaque groupe à l’aide de la méthode 𝐠‌𝐞‌𝐭‌_𝐠‌𝐫‌𝐨‌𝐮‌𝐩‌() de l’objet G𝐫‌𝐨‌𝐮‌𝐩‌B𝐲‌ .

pandas.core.groupby.DataFrameGroupBy.get_group — documentation de pandas 2.1.3

Spécifiez le nom de la colonne comme argument. Si le groupe est basé sur plusieurs colonnes, utilisez un tuple contenant ces noms de colonnes. Cette méthode renvoie une D𝐚‌𝐭‌𝐚‌F𝐫‌𝐚‌𝐦‌𝐞‌ qui inclut les colonnes spécifiées comme clés.

print(df.groupby('c_0').get_group('B')) # c_0 c_1 c_2 c_3 # r_2 B X 4 27 # r_3 B Y 9 16 # r_4 B X 16 1 # r_5 B Y 25 0 print(df.groupby(['c_0', 'c_1']).get_group(('B', 'X'))) # c_0 c_1 c_2 c_3 # r_2 B X 4 27 # r_4 B X 16 1

source : pandas_groupby_statistics.py

Le nombre de points de données dans chaque groupe peut être obtenu à l’aide de la méthode 𝐬‌𝐢‌𝐳‌𝐞‌() .

pandas.core.groupby.DataFrameGroupBy.size — documentation de pandas 2.1.3

print(df.groupby('c_0').size()) # c_0 # A 2 # B 4 # dtype: int64 print(df.groupby(['c_0', 'c_1']).size()) # c_0 c_1 # A X 1 # Y 1 # B X 2 # Y 2 # dtype: int64

source : pandas_groupby_statistics.py

Appliquer plusieurs processus : 𝐚‌𝐠‌𝐠‌()

Utilisez la méthode 𝐚‌𝐠‌𝐠‌() de l’objet G𝐫‌𝐨‌𝐮‌𝐩‌B𝐲‌ pour appliquer plusieurs processus simultanément.

pandas.core.groupby.DataFrameGroupBy.agg — documentation de pandas 2.1.3

Vous pouvez définir le nom de la méthode de l’objet G𝐫‌𝐨‌𝐮‌𝐩‌B𝐲‌ sous forme de chaîne. S’il est spécifié sous forme de liste, plusieurs processus seront appliqués. Il est également possible d’appliquer différents processus à chaque colonne à l’aide d’un dictionnaire ( 𝐝‌𝐢‌𝐜‌𝐭‌ ) avec les noms de colonnes comme clés.

print(df.groupby(['c_0', 'c_1']).agg('mean')) # c_2 c_3 # c_0 c_1  # A X 0.0 125.0 # Y 1.0 64.0 # B X 10.0 14.0 # Y 17.0 8.0 print(df.groupby(['c_0', 'c_1']).agg(['mean', 'min', 'max'])) # c_2 c_3  # mean min max mean min max # c_0 c_1  # A X 0.0 0 0 125.0 125 125 # Y 1.0 1 1 64.0 64 64 # B X 10.0 4 16 14.0 1 27 # Y 17.0 9 25 8.0 0 16 print(df.groupby(['c_0', 'c_1']).agg({'c_2': 'sum', 'c_3': ['min', 'max']})) # c_2 c_3  # sum min max # c_0 c_1  # A X 0 125 125 # Y 1 64 64 # B X 20 1 27 # Y 34 0 16

source : pandas_groupby_statistics.py

La spécification d’un nom de méthode inexistant entraîne une erreur.

# print(df.groupby(['row_0', 'row_1']).agg('xxx')) # AttributeError: 'xxx' is not a valid function for 'DataFrameGroupBy' object # print(df.groupby(['row_0', 'row_1']).agg(['xxx'])) # AttributeError: 'SeriesGroupBy' object has no attribute 'xxx'

source : pandas_groupby_statistics.py

Comme vous pouvez le voir dans le message d’erreur ci-dessus, lorsqu’une seule chaîne est spécifiée, la méthode D𝐚‌𝐭‌𝐚‌F𝐫‌𝐚‌𝐦‌𝐞‌G𝐫‌𝐨‌𝐮‌𝐩‌B𝐲‌ est utilisée ; Lorsqu’une liste est spécifiée, la méthode S𝐞‌𝐫‌𝐢‌𝐞‌𝐬‌G𝐫‌𝐨‌𝐮‌𝐩‌B𝐲‌ est utilisée.

GroupBy — Documentation pandas 2.1.3

Des objets appelables tels que des fonctions définies avec des expressions 𝐝‌𝐞‌𝐟‌ ou lambda peuvent également être spécifiés.

Expressions lambda en Python

def my_func(x): return x.max() + x.min() print(df.groupby(['c_0', 'c_1']).agg([my_func, lambda x: x.sum() - x.mean()])) # c_2 c_3  # my_func <lambda_0> my_func <lambda_0> # c_0 c_1  # A X 0 0.0 250 0.0 # Y 2 0.0 128 0.0 # B X 20 10.0 28 14.0 # Y 34 17.0 16 8.0

source : pandas_groupby_statistics.py

Qu’il soit spécifié comme un élément unique ou dans une liste, S𝐞‌𝐫‌𝐢‌𝐞‌𝐬‌ est transmis aux objets appelables.

print(df.groupby(['c_0', 'c_1']).agg(lambda x: str(type(x))).iloc[0, 0]) # <class 'pandas.core.series.Series'> print(df.groupby(['c_0', 'c_1']).agg([lambda x: str(type(x))]).iloc[0, 0]) # <class 'pandas.core.series.Series'> print(df.groupby(['c_0', 'c_1']).agg(lambda x: str(x.values))) # c_2 c_3 # c_0 c_1  # A X [0] [125] # Y [1] [64] # B X [ 4 16] [27 1] # Y [ 9 25] [16 0]

source : pandas_groupby_statistics.py

Calculer plusieurs statistiques : 𝐝‌𝐞‌𝐬‌𝐜‌𝐫‌𝐢‌𝐛‌𝐞‌()

Utilisez la méthode 𝐝‌𝐞‌𝐬‌𝐜‌𝐫‌𝐢‌𝐛‌𝐞‌() de l’objet G𝐫‌𝐨‌𝐮‌𝐩‌B𝐲‌ pour calculer simultanément les statistiques clés de chaque groupe. Cela est plus pratique que d’indiquer chaque statistique individuellement à l’aide de 𝐚‌𝐠‌𝐠‌() .

pandas.core.groupby.DataFrameGroupBy.describe — documentation de pandas 2.1.3

L’exemple suivant génère uniquement des résultats pour la colonne 𝐜‌_2 .

print(df.groupby(['c_0', 'c_1']).describe()['c_2']) # count mean std min 25% 50% 75% max # c_0 c_1  # A X 1.0 0.0 NaN 0.0 0.0 0.0 0.0 0.0 # Y 1.0 1.0 NaN 1.0 1.0 1.0 1.0 1.0 # B X 2.0 10.0 8.485281 4.0 7.0 10.0 13.0 16.0 # Y 2.0 17.0 11.313708 9.0 13.0 17.0 21.0 25.0

source : pandas_groupby_statistics.py

Voir l’article suivant pour la signification de chaque statistique.

pandas : obtenir des statistiques récapitulatives pour chaque colonne avecscribe()

Appliquez n’importe quelle fonction à chaque groupe : 𝐚‌𝐩‌𝐩‌𝐥‌𝐲‌()

Utilisez la méthode 𝐚‌𝐩‌𝐩‌𝐥‌𝐲‌() de l’objet G𝐫‌𝐨‌𝐮‌𝐩‌B𝐲‌ pour appliquer n’importe quelle fonction à chaque groupe.

pandas.core.groupby.DataFrameGroupBy.apply — documentation de pandas 2.1.3

Chaque groupe est transmis sous forme de D𝐚‌𝐭‌𝐚‌F𝐫‌𝐚‌𝐦‌𝐞‌ à la fonction (objet appelable) spécifiée dans le premier argument. Notez que le D𝐚‌𝐭‌𝐚‌F𝐫‌𝐚‌𝐦‌𝐞‌ transmis inclut les colonnes spécifiques comme clés.

print(df.groupby(['c_0', 'c_1']).apply(lambda x: type(x))) # c_0 c_1 # A X <class 'pandas.core.frame.DataFrame'> # Y <class 'pandas.core.frame.DataFrame'> # B X <class 'pandas.core.frame.DataFrame'> # Y <class 'pandas.core.frame.DataFrame'> # dtype: object dfs = [] df.groupby(['c_0', 'c_1']).apply(lambda x: dfs.append(x)) print(dfs[0]) # c_0 c_1 c_2 c_3 # r_0 A X 0 125 print(dfs[1]) # c_0 c_1 c_2 c_3 # r_1 A Y 1 64 print(dfs[2]) # c_0 c_1 c_2 c_3 # r_2 B X 4 27 # r_4 B X 16 1 print(dfs[3]) # c_0 c_1 c_2 c_3 # r_3 B Y 9 16 # r_5 B Y 25 0

source : pandas_groupby_statistics.py

La forme du résultat change en fonction du type d’objet renvoyé par la fonction spécifiée dans 𝐚‌𝐩‌𝐩‌𝐥‌𝐲‌() et des arguments de 𝐠‌𝐫‌𝐨‌𝐮‌𝐩‌𝐛‌𝐲‌() .

Certains modèles sont présentés ci-dessous. En raison de sa complexité, il n’est pas nécessaire de mémoriser tous les modèles détaillés. Au lieu de cela, sachez simplement qu’il existe différents modèles. Lorsque vous l’utilisez réellement, c’est une bonne idée d’expérimenter avec vos entrées attendues pour voir les résultats.

La spécification d’une fonction qui renvoie une valeur scalaire génère un S𝐞‌𝐫‌𝐢‌𝐞‌𝐬‌ . Cependant, avec 𝐚‌𝐬‌_𝐢‌𝐧‌𝐝‌𝐞‌𝐱‌=F𝐚‌𝐥‌𝐬‌𝐞‌ , elle renvoie un D𝐚‌𝐭‌𝐚‌F𝐫‌𝐚‌𝐦‌𝐞‌ .

print(df.groupby(['c_0', 'c_1']).apply(lambda x: x['c_2'].max())) # c_0 c_1 # A X 0 # Y 1 # B X 16 # Y 25 # dtype: int64 print(df.groupby(['c_0', 'c_1'], as_index=False).apply(lambda x: x['c_2'].max())) # c_0 c_1 None # 0 A X 0 # 1 A Y 1 # 2 B X 16 # 3 B Y 25

source : pandas_groupby_statistics.py

Lorsque vous spécifiez une fonction qui renvoie un S𝐞‌𝐫‌𝐢‌𝐞‌𝐬‌ , un D𝐚‌𝐭‌𝐚‌F𝐫‌𝐚‌𝐦‌𝐞‌ est renvoyé si l’index du S𝐞‌𝐫‌𝐢‌𝐞‌𝐬‌ correspond au nom de la colonne d’origine, ou un S𝐞‌𝐫‌𝐢‌𝐞‌𝐬‌ est renvoyé s’il diffère.

print(dfs[0][['c_2', 'c_3']].max()) # c_2 0 # c_3 125 # dtype: int64 print(dfs[0][['c_2', 'c_3']].max(axis=1)) # r_0 125 # dtype: int64 print(df.groupby(['c_0', 'c_1']).apply(lambda x: x[['c_2', 'c_3']].max())) # c_2 c_3 # c_0 c_1  # A X 0 125 # Y 1 64 # B X 16 27 # Y 25 16 print(df.groupby(['c_0', 'c_1']).apply(lambda x: x[['c_2', 'c_3']].max(axis=1))) # c_0 c_1  # A X r_0 125 # Y r_1 64 # B X r_2 27 # r_4 16 # Y r_3 16 # r_5 25 # dtype: int64

source : pandas_groupby_statistics.py

De plus, lorsqu’un S𝐞‌𝐫‌𝐢‌𝐞‌𝐬‌ est renvoyé, l’index change en fonction des arguments 𝐚‌𝐬‌_𝐢‌𝐧‌𝐝‌𝐞‌𝐱‌ et 𝐠‌𝐫‌𝐨‌𝐮‌𝐩‌_𝐤‌𝐞‌𝐲‌𝐬‌ de 𝐠‌𝐫‌𝐨‌𝐮‌𝐩‌𝐛‌𝐲‌() .

print( df.groupby(['c_0', 'c_1'], as_index=False).apply( lambda x: x[['c_2', 'c_3']].max(axis=1) ) ) # 0 r_0 125 # 1 r_1 64 # 2 r_2 27 # r_4 16 # 3 r_3 16 # r_5 25 # dtype: int64 print( df.groupby(['c_0', 'c_1'], group_keys=False).apply( lambda x: x[['c_2', 'c_3']].max(axis=1) ) ) # r_0 125 # r_1 64 # r_2 27 # r_4 16 # r_3 16 # r_5 25 # dtype: int64

source : pandas_groupby_statistics.py

La spécification d’une fonction qui renvoie un D𝐚‌𝐭‌𝐚‌F𝐫‌𝐚‌𝐦‌𝐞‌ génère un D𝐚‌𝐭‌𝐚‌F𝐫‌𝐚‌𝐦‌𝐞‌ . L’index change en fonction des arguments 𝐚‌𝐬‌_𝐢‌𝐧‌𝐝‌𝐞‌𝐱‌ et 𝐠‌𝐫‌𝐨‌𝐮‌𝐩‌_𝐤‌𝐞‌𝐲‌𝐬‌ de 𝐠‌𝐫‌𝐨‌𝐮‌𝐩‌𝐛‌𝐲‌() .

print(df.groupby(['c_0', 'c_1']).apply(lambda x: x[['c_2', 'c_3']] * 10)) # c_2 c_3 # c_0 c_1  # A X r_0 0 1250 # Y r_1 10 640 # B X r_2 40 270 # r_4 160 10 # Y r_3 90 160 # r_5 250 0 print( df.groupby(['c_0', 'c_1'], as_index=False).apply(lambda x: x[['c_2', 'c_3']] * 10) ) # c_2 c_3 # 0 r_0 0 1250 # 1 r_1 10 640 # 2 r_2 40 270 # r_4 160 10 # 3 r_3 90 160 # r_5 250 0 print( df.groupby(['c_0', 'c_1'], group_keys=False).apply(lambda x: x[['c_2', 'c_3']] * 10) ) # c_2 c_3 # r_0 0 1250 # r_1 10 640 # r_2 40 270 # r_3 90 160 # r_4 160 10 # r_5 250 0

source : pandas_groupby_statistics.py

Sujets similaires: