Что эквивалентно value_counts () Panda в PySpark? - PullRequest
0 голосов
/ 27 июня 2018

У меня следующая команда python / pandas:

df.groupby('Column_Name').agg(lambda x: x.value_counts().max()

где я получаю значения для ВСЕХ столбцов в DataFrameGroupBy объекте.

Как мне сделать это действие в PySpark?

1 Ответ

0 голосов
/ 27 июня 2018

Это более или менее то же самое:

spark_df.groupBy('column_name').count().orderBy('count')

В groupBy вы можете иметь несколько столбцов, разделенных ,

Например groupBy('column_1', 'column_2')

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...