Можно ли настроить задание потока данных на однопоточность? - PullRequest
0 голосов
/ 24 марта 2020

Я пытался настроить и развернуть задание Cloud Dataflow, которое действительно является однопоточным, чтобы избежать проблем параллелизма при создании / обновлении объектов в хранилище данных. Я предполагал, что использование машины n1-standard-1 гарантирует, что задание выполняется в одном потоке, на одной машине, но я пришел к выводу, что это не так.

Я перебрал предложения, упомянутые в предыдущем запросе, здесь - Могу ли я заставить шаг в моем конвейере потока данных быть однопоточным (и на одной машине)?

Но я хотел избежать реализации оконного подхода и хотел бы знать, есть ли более простой способ просто сконфигурировать задание для обеспечения однопоточного поведения.

Будем весьма благодарны за любые предложения или идеи

1 Ответ

0 голосов
/ 26 марта 2020

Недавно я узнал, что однопоточное поведение гарантируется использованием одного рабочего, который является n1-standard-1, и дополнительно с помощью следующего exec_arg --numberOfWorkerHarnessThreads = 1, поскольку это также ограничивает число потоков JVM до 1 .

...