apache beam в облачном потоке данных Google отслеживает промежуточные файлы во временном местоположении? - PullRequest
0 голосов
/ 04 февраля 2020

В потоке данных вы указываете временное местоположение для данных, которые будут распараллелены, а затем агрегированы в конце. Мне интересно, если он отслеживает, какие временные файлы ему нужно собрать в прогоне. Если для последующих запусков указано одно и то же ведро, а другие временные файлы с другими именами остались от предыдущих запусков, будет просто лениво агрегировать все содержимое в папке временного хранилища в ведре или только указанные c имена временных файлов, связанные с текущий пробег?

1 Ответ

1 голос
/ 06 февраля 2020

Только те, которые связаны с текущим прогоном, так как поток данных отказоустойчивый и может повторить ваш код несколько раз в случае проблем с рабочими. Служба потока данных может создавать резервные копии вашего кода и может иметь проблемы с побочными эффектами вручную (например, если ваш код основан на или создает временные файлы с неуникальными именами).

Но рекомендуется установить отдельные корзины для каждого задания, так как задания, основанные на шаблонах, могут использовать один и тот же каталог на основе отметки времени создания шаблона, например:

.temp-beam-2020-01-12_14-13-30-12/
...