Мне нужна ваша помощь с вопросом о Spark / Pyspark. У меня есть Spark DataFrame, который выглядит следующим образом. Я хочу сгруппировать фрейм данных по столбцу name
. Как сохранить только те группы, которые содержат хотя бы одну nickname
'X'?
df = pd.DataFrame({"name":["A", "A", "B" ,"B", "C", "C"],
"nickname":["X","Y","X","Z","Y", "Y"]}
. На этот вопрос дан ответ для Pandas с функцией filter
. Однако Pyspark, похоже, не поддерживает groupBy().filter()
.
Есть идеи? Большое спасибо.