Spark ограничивает максимальный размер раздела в 2G, поэтому вы сможете обрабатывать все данные с минимальным разделением и более быстрым временем обработки.Вы можете установить spark.executor.cores на 8, чтобы использовать все свои ресурсы.
В идеале вам следует установить количество разделов в зависимости от размера ваших данных, и вам лучше установить количество разделов.разделы как кратные ядра / исполнители.
Чтобы ответить на ваш вопрос, установка количества разделов на 4 в вашем случае, вероятно, приведет к тому, что каждый раздел будет отправлен исполнителю.Так что да, каждый раздел будет обрабатываться параллельно.
Если вы не переделите, Spark сделает это за вас в зависимости от данных и распределит нагрузку между исполнителями.
Sparkпрекрасно работает без Hadoop.Вы можете увидеть незначительное снижение производительности, поскольку ваши файлы находятся в локальной файловой системе, а не в HDFS, но для файла размером 1 ГБ это действительно не имеет значения.