Обработка ошибок Apache Beam Python при чтении файлов из шаблона файла - PullRequest
1 голос
/ 07 июня 2019

Я читаю все файлы из каталога и записываю в таблицу больших запросов.

Если с каким-либо файлом в каталоге возникнет ошибка, это вызовет ошибку и остановит задание. Я не получаю никакой информации об этом файле (имя файла, в котором возникла ошибка) в журнале.

with beam.Pipeline(options=pipeline_options) as p:
    read_rec = p  | 'Read Files' >> ReadFromText('gs://MyBucket/MyDir/*.gz')
    read_str = read_rec | 'Map to Json' >> beam.Map(string_format)
    write_rec = read_str | 'Write to BigQuery' >> beam.io.WriteToBigQuery(
        known_args.output,schema='string_field_0:STRING',
        createdisposition=beam.io.BigQueryDisposition.CREATE_NEVER,
        write_disposition=beam.io.BigQueryDisposition.WRITE_APPEND
    ) 

Есть ли способ пропустить сбойный файл и перейти к следующему файлу или хотя бы записать имя файла, в котором обнаружена ошибка.

...