В чем разница между параллелизмом и параллельными вычислениями во Flink? - PullRequest
0 голосов
/ 10 апреля 2020

У меня путаница в количестве задач, которые могут работать параллельно во Flink,

Может кто-нибудь объяснить мне:

  • что такое число параллелизма в распределенной системе ? и его отношение к терминологии Flink
  • В Flink это то же самое, что и 2 параллелизма = 2 задачи работают параллельно?
  • В Flink, если 2 оператора работают отдельно, но число параллелизма в каждом из них равно 1, считается ли это параллельным вычислением?
  • Правда ли, что в KeyedStream максимальное количество параллелизма равно количеству ключей?
  • Имеет ли текущий CEP двигатель в Flink способен работать более чем в 1 задании?

Спасибо.

1 Ответ

0 голосов
/ 10 апреля 2020

Флинк использует термин параллелизм довольно стандартным способом - он относится к запуску нескольких копий одного и того же вычисления одновременно на нескольких процессорах, но с разными данными. Когда мы говорим о параллелизме по отношению к Flink, он может применяться к оператору с параллельными экземплярами или к конвейеру или заданию (состоящему из нескольких операторов).

В Flink несколько операторов могут работать по отдельности и одновременно. Например, в этом задании

source ---> map ---> sink

источник, карта и приемник могут работать одновременно в разных процессорах, но мы не будем называть это параллельным вычислением. (Распределенный, да.)

В типичном развертывании Flink число временных интервалов задач равно параллелизму задания, и каждый слот выполняет один полный параллельный фрагмент приложения. Каждый параллельный экземпляр цепочки операторов будет соответствовать задаче. Таким образом, в приведенном выше простом примере источник, карта и приемник могут быть объединены в цепочку и выполнены в одной задаче. Если вы развернете эту работу с параллелизмом два, тогда будет две задачи. Но вы можете отключить цепочку и запустить каждый оператор в отдельной задаче, в этом случае вы будете использовать шесть задач для выполнения задания с параллелизмом два.

Да, с KeyedStream, число различных ключей является верхней границей параллелизма.

CEP может работать параллельно, если он работает на KeyedStream (в этом случае сопоставление с образцом выполняется независимо для каждого ключа).

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...