Подсчет GroupBy с использованием Pandas Dataframe в Python - PullRequest
0 голосов
/ 02 июля 2019

Я знаю, как сделать эту Scala Spark - интересно, почему в Анаконде так больно - Питон

Я хочу сделать идентичную операцию в Python

val dfs = df.groupBy($"col1").count.orderBy(desc("count"))

Это дает ошибку

dfs = df[['col1']].groupby(['col1]).count.sort(['count'])

1 Ответ

1 голос
/ 02 июля 2019

вы можете использовать .size() и .sort_values().

попробуйте это:

import pandas as pd
import numpy as np

df = pd.DataFrame.from_dict({"col1": np.random.randint(11, 20, size=100, dtype=int)})
dfs = df.groupby('col1').size().sort_values()
print(dfs)

Выход:

col1
16     7
11     8
15     8
12     9
14    11
19    12
13    13
17    16
18    16
dtype: int64
...