Например, у меня есть следующий DataFrame
+-----+----+------+
| idx | id | type |
+-----+----+------+
| 0 | 10 | a |
| 1 | 10 | b |
| 2 | 20 | b |
| 3 | 30 | a |
+-----+----+------+
Мне нужно такое подмножество с помощью следующих последовательных шагов:
- получить все
id
из type
a - отфильтрованные
id
являются 10 и 30
- получить все строкигде
id
такие же, как указано выше
Результирующее подмножество DataFrameэто:
+-----+----+------+
| idx | id | type |
+-----+----+------+
| 0 | 10 | a |
| 1 | 10 | b |
| 3 | 30 | a |
+-----+----+------+
Как я могу реализовать это в pyspark
? Заранее спасибо.
Еще один дополнительный вопрос, как реализовать следующее.
Если шаг изменен на:
получить все строки, в которых
id
отличается от указанного выше
- строк
2
выбрано, поскольку только id
этой строки не 10 или 30
В результате DataFrame должен быть:
+-----+----+------+
| idx | id | type |
+-----+----+------+
| 2 | 20 | b |
+-----+----+------+