Question

У меня следующая команда python / pandas:

df.groupby('Column_Name').agg(lambda x: x.value_counts().max()

где я получаю значения для ВСЕХ столбцов в DataFrameGroupBy объекте.

Как мне сделать это действие в PySpark?

Tanjin · Answer 1 · 27 июня 2018

Это более или менее то же самое:

spark_df.groupBy('column_name').count().orderBy('count')

В groupBy вы можете иметь несколько столбцов, разделенных ,

Например groupBy('column_1', 'column_2')

Что эквивалентно value_counts () Panda в PySpark?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.