Хотите запустить Apache Beam Pipeline параллельно - PullRequest
0 голосов
/ 16 мая 2019

Моя постановка проблемы

1. Необходимо получить данные из нескольких сторонних источников / выполнить какую-либо операцию / сохранить данные в каком-то месте

2. Мне нужно создать выделенный конвейер Beam для каждого источника

Поскольку я новичок в Beam, мой вопрос

1. Если я создам отдельные конвейеры для другого стороннего источника, это будет хорошо или это может вызвать проблемы?

2. Если дизайн верен, то если я запустил на одной машине команду beam-runners-direct-java, будет ли она работать как параллельная обработка?

1 Ответ

1 голос
/ 16 мая 2019

Beam имеет окончательный план поддержки множества различных источников (и в конечном итоге они могут быть даже на разных языках).

на ваши вопросы, параллельная параллельная работа луча-бегуна на одной машине не вызовет проблем. Фактически, все проверочные тесты используют прямой запуск, и тесты выполняются параллельно.

Одна неясная вещь состоит в том, какова основная причина того, что у вас есть для создания нескольких конвейеров, по одному для каждого стороннего источника? если причина в том, чтобы параллельно работать с более высокой пропускной способностью, я (необъективное мнение) думаю, что это не очень хорошая идея. В конечном счете, даже если мы представим функцию оптимизации параллельных источников, вы не сможете воспользоваться преимуществами этой опции.

...