Я пытаюсь получить некоторые простые правила или рекомендации, какие значения следует устанавливать для параллелизма оператора или задания.Мне кажется, что это должно быть число <= количество доступных слотов задач?</p>
Например, предположим, у меня есть 2 машины диспетчера задач, каждая с 4 слотами для задач.Предполагая, что в кластере не выполняются другие задания, могу ли я установить параллелизм для таких операций, как filter и map, равным 8?Если нет, то какой будет разумный номер?
Что произойдет, если вы запросите больше параллелизма, чем слотов задач?В приведенном выше примере, что произойдет, если я установлю параллелизм на 12 для операций?Я предполагаю, что он будет использовать столько, сколько доступно?
Кроме того, может показаться, что вы не захотите жестко закодировать параллелизм в своем исходном коде, поскольку вы захотите получить приблизительное представление о доступных слотах задач при отправке задания?Стоит ли устанавливать параллелизм для всех операторов с примерно одинаковыми или разными значениями, и чем будет руководствоваться это решение?
Спасибо!