Pyspark / Spark: удалить группы, которые не содержат определенного значения - PullRequest
0 голосов
/ 25 марта 2020

Мне нужна ваша помощь с вопросом о Spark / Pyspark. У меня есть Spark DataFrame, который выглядит следующим образом. Я хочу сгруппировать фрейм данных по столбцу name. Как сохранить только те группы, которые содержат хотя бы одну nickname 'X'?

df = pd.DataFrame({"name":["A", "A", "B" ,"B", "C", "C"],
                   "nickname":["X","Y","X","Z","Y", "Y"]}

. На этот вопрос дан ответ для Pandas с функцией filter. Однако Pyspark, похоже, не поддерживает groupBy().filter().

Есть идеи? Большое спасибо.

1 Ответ

1 голос
/ 25 марта 2020
df = df.groupby('name','nickname').count().filter('Use condition which you want')
...