Question

Следующий код:

def get_pipeline(workers):
    pipeline_options = PipelineOptions(['--direct_num_workers', str(workers)])
    return beam.Pipeline(options=pipeline_options,
                         runner=fn_api_runner.FnApiRunner(
                             default_environment=beam_runner_api_pb2.Environment(
                                 urn=python_urns.SUBPROCESS_SDK,
                                 payload=b'%s -m apache_beam.runners.worker.sdk_worker_main'
                                         % sys.executable.encode('ascii'))))

with get_pipeline(4) as pipeline:
  _ = (  
        pipeline
        | 'ReadTestData' >> beam.io.ReadFromParquet(input_files, columns=all_columns)
        | "write" >> beam.io.WriteToText("/tmp/txt2")
  )

использует только одного работника из 4 доступных и генерирует только один большой выходной файл (даже при том, что входных файлов много).

Как заставить параллельный конвейер Beam работать, т.е. как заставить каждый входной файл обрабатываться отдельно другим работником?

Apache Beam с DirectRunner (SUBPROCESS_SDK) использует только одного работника, как заставить его использовать всех доступных работников?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Apache Beam с DirectRunner (SUBPROCESS_SDK) использует только одного работника, как заставить его использовать всех доступных работников?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Похожие темы