Как выбрать группы в pyspark? - PullRequest
0 голосов
/ 15 февраля 2019

У меня есть фрейм данных с> 1M группами, и каждая группа содержит около ~ 100 записей (строк).Как выполнить выборку на основе отдельных групп в pyspark, чтобы выбранные группы по-прежнему имели полные строки?

Пример гораздо меньшего размера:

+-----+---+
|group| x |
+-----+---+
|  1  |0.1|
|  1  |0.2|
|  2  |0.1|
|  2  |0.5|
|  2  |0.3|
|  3  |0.5|
|  4  |0.8|
|  4  |0.5|
+-----+---+

Я хочу выполнить выборку, чтобы, еслигруппы 1 и 3 выбраны. Я получил от них полные записи:

+-----+---+
|group| x |
+-----+---+
|  1  |0.1|
|  1  |0.2|
|  3  |0.5|
+-----+---+
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...