почему спарк читать CSV генерировать три задания - PullRequest
0 голосов
/ 21 декабря 2018

Я попробовал простой пример на spark 2.1cloudra2:

val flightData2015 = spark
  .read
  .option("inferSchema", "true")
  .option("header", "true")
  .csv("/2015-summary.csv")

, но когда я проверял пользовательский интерфейс spark shell, я обнаружил, что он генерирует три задания: enter image description here

Я думаю, что каждое действие должно быть связано с работой, я прав?Я провел некоторый эксперимент, выяснив, что каждый вариант может создать работу.Опцион действует как действие?Пожалуйста, помогите разобраться в этой ситуации.

1 Ответ

0 голосов
/ 21 декабря 2018

@ yuxh, это из-за defaultMinPartitions, который был установлен в 3. Это отражает параллелизм при выполнении задания на искру. Вы можете изменить его в yarn-site.xml глобально или динамически, специфично для задания, выполнив sqlContext.setConf("spark.sql.shuffle.partitions", "your value”)

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...