У меня есть фрейм данных с> 1M группами, и каждая группа содержит около ~ 100 записей (строк).Как выполнить выборку на основе отдельных групп в pyspark, чтобы выбранные группы по-прежнему имели полные строки?
Пример гораздо меньшего размера:
+-----+---+
|group| x |
+-----+---+
| 1 |0.1|
| 1 |0.2|
| 2 |0.1|
| 2 |0.5|
| 2 |0.3|
| 3 |0.5|
| 4 |0.8|
| 4 |0.5|
+-----+---+
Я хочу выполнить выборку, чтобы, еслигруппы 1 и 3 выбраны. Я получил от них полные записи:
+-----+---+
|group| x |
+-----+---+
| 1 |0.1|
| 1 |0.2|
| 3 |0.5|
+-----+---+