Внутренне Spark разбивает файл на порции и анализирует порции параллельно на нескольких узлах? Или Spark анализирует файл только с использованием одного узла и распределяет кадры данных между узлами?
Spark разбивает файл на куски, называемые разделами (единицами parllelism), если вы используете перераспределение или если вы не перераспределяют количество разделов по умолчанию, которое потребуется.
Вы можете увеличить или уменьшить количество разделов, используя repartition
, но можете только уменьшить количество разделов, используя coalesce
см. здесь
Наконец, в зависимости от количества исполнителей и ядер, он будет обрабатывать данные на нескольких узлах или одном узле на основе ваших параметров spark-submit.