Вы можете проверить то же самое в веб-интерфейсе Spark, где вы можете увидеть, сколько задач создается и как они выполняются в разных узлах. Вы также можете проверить, не перекосились ли ваши исполнители и не нашли ли вы время написать. Вы также можете работать с примером в реальном времени, взять файл объемом 15 ГБ и обработать файл на своих 4-узловых 16-ГБ компьютерах с 4 ядрами. После прочтения сделайте переразметку 10, выполните простое агрегирование и запишите в другой каталог. Вы сможете увидеть, как параллельные задачи создаются и выполняются в узлах задач.