Question

У меня есть фрейм данных с> 1M группами, и каждая группа содержит около ~ 100 записей (строк).Как выполнить выборку на основе отдельных групп в pyspark, чтобы выбранные группы по-прежнему имели полные строки?

Пример гораздо меньшего размера:

+-----+---+
|group| x |
+-----+---+
|  1  |0.1|
|  1  |0.2|
|  2  |0.1|
|  2  |0.5|
|  2  |0.3|
|  3  |0.5|
|  4  |0.8|
|  4  |0.5|
+-----+---+

Я хочу выполнить выборку, чтобы, еслигруппы 1 и 3 выбраны. Я получил от них полные записи:

+-----+---+
|group| x |
+-----+---+
|  1  |0.1|
|  1  |0.2|
|  3  |0.5|
+-----+---+

Как выбрать группы в pyspark?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Как выбрать группы в pyspark?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Нет похожих вопросов