Question

Мне нужна ваша помощь с вопросом о Spark / Pyspark. У меня есть Spark DataFrame, который выглядит следующим образом. Я хочу сгруппировать фрейм данных по столбцу name. Как сохранить только те группы, которые содержат хотя бы одну nickname 'X'?

df = pd.DataFrame({"name":["A", "A", "B" ,"B", "C", "C"],
                   "nickname":["X","Y","X","Z","Y", "Y"]}

. На этот вопрос дан ответ для Pandas с функцией filter. Однако Pyspark, похоже, не поддерживает groupBy().filter().

Есть идеи? Большое спасибо.

Pyspark / Spark: удалить группы, которые не содержат определенного значения

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Pyspark / Spark: удалить группы, которые не содержат определенного значения

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы