Предположим, у нас есть 2 PCollections:
PCollection 1:
[<ID_1, some_data>, <ID_2, some_data>, ... <ID_5, some_data>]
PCollection 2:
[<ID_2>, <ID_5>]
Оба PCollections ограничены, но могут быть огромными (поэтомупредпочитаю не вводить на стороне).
Скажем, мы хотим разделить PCollection1 на 2, решив, существует ли ID_x в PCollection 2, то есть один PCollection будет иметь [<ID_1, some_data>, <ID_3, some_data>, <ID_4, some_data>]
, а другой [<ID_2, some_data>, <ID_5, some_data>]
.Как этого добиться?
Кажется, что преобразование Partition
- это путь, но я не могу понять, как.
Но, кстати, я использую Python.