Вопрос связан с this .
Я пытаюсь получить образец элементов в PCollection с использованием Python SDK для Dataflow / Beam.
Sample.FixedSizeGlobally(n)
существует и приводит к PCollection Iterable.
Предположим, у меня есть это: pipeline | Sample.FixedSizeGlobally(sample_size) | beam.Map(my_function)
В этом случае неясно, окажется ли весь образец на одном работнике.и приведет к нехватке памяти или если образец будет распределен.