Задания потока данных на основе шаблона используют один и тот же временный каталог - PullRequest
0 голосов
/ 06 сентября 2018

Мы тестируем запуск нескольких заданий потока данных из шаблона, при этом несколько заданий часто выполняются одновременно.

Мы обнаруживаем, что задания используют одни и те же временные каталоги, основываясь на отметке времени, когда был создан шаблон, а не при запуске задания.

Вот пример временного каталога:

.temp-beam-2018-08-02_20-11-52-18/

Мы видим несколько заданий, использующих одни и те же временные каталоги в корзине.

Это похоже на строку кода в Beam: https://github.com/apache/beam/blob/master/sdks/java/core/src/main/java/org/apache/beam/sdk/io/FileBasedSink.java#L532.

Обратите внимание, что временный идентификатор является инкрементным числом, и единственной другой энтропией во временном каталоге является временная метка, которая, как мы находим, основана на времени создания шаблона, а не на времени выполнения задания.

Если несколько заданий используют одни и те же временные каталоги, могут ли они мешать данным друг друга? Есть ли способ обойти это?

...