Я новичок в Spark и пытался проверить создание DAG в пользовательском интерфейсе Spark, используя:
, когда я читаю простой файл csv с помощью команды
val df = spark.read.format("csv").option("header", "true").load("/home/user/test.csv") then in spark only 1 STAGE is creating with DAG as :
и я не понимаю, что и почему это «MAP»> «MAPPARTITIONSINTERNAL»> «WHOLESTAGECODEGEN»
и когда я запускаю команду, включая Для параметра "inferschema" значение TRUE, затем создаются 2 ЭТАПА:
spark.read.format ("csv"). option ("header", "true"). option ("inferSchema", true) .load ("/home/user/test.csv") с каждым этапом имеет свой DAG
STAGE 1 DAG:
STAGE 2 DAG:
Может ли кто-нибудь помочь мне, пожалуйста, почему он создает две стадии, когда inferschema ИСТИНА, и откуда я могу получить уточнение терминов, как упомянуто в этапах, например " DESERIALIZETOOBJECT ">" MAP "et c.
В ожидании ценной информации, которая может помочь в детальном понимании DAG, относительно того, почему я В ЗАДАНИИ 7 выполняется несколько «РАЗДЕЛОВ КАРТЫ», затем «DESERIALIZETOOBJECT», затем «WHOLESTAGECODEGEN», а затем снова в ЗАДАНИИ 8 выполняется «MAP»> «MAPPARTITIONSINTERNAL»> «WHOLESTAGECODEGEN»