Пример распределения в Dataflow / Beam с Python - PullRequest
0 голосов
/ 26 мая 2018

Вопрос связан с this .

Я пытаюсь получить образец элементов в PCollection с использованием Python SDK для Dataflow / Beam.

Sample.FixedSizeGlobally(n) существует и приводит к PCollection Iterable.

Предположим, у меня есть это: pipeline | Sample.FixedSizeGlobally(sample_size) | beam.Map(my_function)

В этом случае неясно, окажется ли весь образец на одном работнике.и приведет к нехватке памяти или если образец будет распределен.

1 Ответ

0 голосов
/ 27 мая 2018

В текущей реализации выборки PTransforms (начиная с Луча 2.4.0) есть эта проблема.Если ваша выборка слишком большая, то она может сокрушить одного работника.

У него также есть проблема с довольно низким параллелизмом.

Улучшения в этом преобразовании должны произойти через несколько месяцев, и ониотслеживается в выпуске JIRA BEAM 3000

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...