Создание DAG в Apache Spark - PullRequest
0 голосов
/ 28 мая 2018

В Apache Spark я знаю, что когда я использую некоторые функции преобразования, все функции сохраняются как DAG, и когда я вызываю действие, Spark запускает все необходимые функции преобразования от этой DAG до функции Action.Итак, предположим, у меня есть

  • Step1.3 функции преобразования
  • Шаг2.1 действие
  • Шаг3.4 функции преобразования, которые используют вывод вышеуказанного действия.
  • Step4.1 действие

Итак, мой вопрос: после вызова первого действия на шаге 2 удаляется ли метка и когда вызывается второе действие, создается новый DAG из шага 3 или создается новый DAGс шага 1?

1 Ответ

0 голосов
/ 29 мая 2018

Spark использует Resilient Distributed Datasets (RDD), которые представляют собой набор данных.Spark может хранить его в распределенной памяти.Как вы упомянули, RDD встроены в группу обеспечения доступности баз данных.

В вашем случае:

  • В первом действии вычисляется вычисление из группы обеспечения доступности баз данных, и в результате получается RDD.
  • На шаге 3 этот вновь созданный СДР используется в качестве входных данных для нового DAG.
  • На шаге 4 этот DAG рассчитывается и приводит к окончательному СДР.
...