Мы тестируем запуск нескольких заданий потока данных из шаблона, при этом несколько заданий часто выполняются одновременно.
Мы обнаруживаем, что задания используют одни и те же временные каталоги, основываясь на отметке времени, когда был создан шаблон, а не при запуске задания.
Вот пример временного каталога:
.temp-beam-2018-08-02_20-11-52-18/
Мы видим несколько заданий, использующих одни и те же временные каталоги в корзине.
Это похоже на строку кода в Beam: https://github.com/apache/beam/blob/master/sdks/java/core/src/main/java/org/apache/beam/sdk/io/FileBasedSink.java#L532.
Обратите внимание, что временный идентификатор является инкрементным числом, и единственной другой энтропией во временном каталоге является временная метка, которая, как мы находим, основана на времени создания шаблона, а не на времени выполнения задания.
Если несколько заданий используют одни и те же временные каталоги, могут ли они мешать данным друг друга? Есть ли способ обойти это?