У меня следующая команда python / pandas:
df.groupby('Column_Name').agg(lambda x: x.value_counts().max()
где я получаю значения для ВСЕХ столбцов в DataFrameGroupBy объекте.
DataFrameGroupBy
Как мне сделать это действие в PySpark?
Это более или менее то же самое:
spark_df.groupBy('column_name').count().orderBy('count')
В groupBy вы можете иметь несколько столбцов, разделенных ,
,
Например groupBy('column_1', 'column_2')
groupBy('column_1', 'column_2')