Чтобы просмотреть список файлов, соответствующих вашему шаблону, вы можете использовать gsutils
, который является утилитой командной строки Cloud Storage.Вы бы сделали следующее:
gsutils ls gs://bucketName/TrafficData*.txt
Теперь, когда нужно выполнить пакетное задание несколько раз, ваш конвейер не сможет узнать, какие файлы он уже проанализировал или нет.Чтобы избежать анализа новых файлов, вы можете выполнить одно из следующих действий:
Определить задание потоковой передачи и использовать функцию TextIO
watchForNewFiles
.Вы должны были бы оставить свою работу для выполнения до тех пор, пока вы хотите продолжать обработку файлов.
Найдите способ предоставить вашему конвейеру файлы, которые уже были проанализированы.Для этого каждый раз, когда вы запускаете свой конвейер, вы можете сгенерировать список файлов для анализа, поместить его в PCollection
, прочитать каждый с TextIO.readAll()
и где-то сохранить список проанализированных файлов.Позже, когда вы снова запустите конвейер, вы можете использовать этот список в качестве черного списка для файлов, которые вам не нужно запускать снова.
Дайте мне знать в комментариях, если вы хотитевыработать решение вокруг одного из этих двух вариантов.