Каждая операция на Dataset
, несмотря на режим непрерывной обработки, преобразуется в последовательность операций на внутреннем RDDs
.Поэтому концепция DAG во всех отношениях применима.
В силу этого выполнение в основном ленивое, хотя, как всегда, существуют исключения, и оно более распространено в Dataset
API, чем в чистом RDD
API.
Наконец, Catalyst отвечает за преобразование Dataset
вызовов API в логический, оптимизированный логический и физический план выполнения и, наконец, за генерацию кода, который будет выполняться заданиями.