выполнение работы в искре - PullRequest
0 голосов
/ 06 мая 2020

Я новичок в Spark и пытался проверить создание DAG в пользовательском интерфейсе Spark, используя:

, когда я читаю простой файл csv с помощью команды

val df = spark.read.format("csv").option("header", "true").load("/home/user/test.csv") then in spark only 1 STAGE is creating with DAG as :

enter image description here

и я не понимаю, что и почему это «MAP»> «MAPPARTITIONSINTERNAL»> «WHOLESTAGECODEGEN»

и когда я запускаю команду, включая Для параметра "inferschema" значение TRUE, затем создаются 2 ЭТАПА:

spark.read.format ("csv"). option ("header", "true"). option ("inferSchema", true) .load ("/home/user/test.csv") с каждым этапом имеет свой DAG

STAGE 1 DAG:

enter image description here

STAGE 2 DAG: enter image description here

Может ли кто-нибудь помочь мне, пожалуйста, почему он создает две стадии, когда inferschema ИСТИНА, и откуда я могу получить уточнение терминов, как упомянуто в этапах, например " DESERIALIZETOOBJECT ">" MAP "et c.

В ожидании ценной информации, которая может помочь в детальном понимании DAG, относительно того, почему я В ЗАДАНИИ 7 выполняется несколько «РАЗДЕЛОВ КАРТЫ», затем «DESERIALIZETOOBJECT», затем «WHOLESTAGECODEGEN», а затем снова в ЗАДАНИИ 8 выполняется «MAP»> «MAPPARTITIONSINTERNAL»> «WHOLESTAGECODEGEN»

...