Конвейер является оркестратором и не преобразует данные. Он управляет серией из одного или нескольких действий, таких как копирование данных или выполнение хранимой процедуры. Поток данных является одним из этих типов действий и сильно отличается от конвейера.
Поток данных выполняет преобразования на уровне строк и столбцов, такие как анализ значений, вычисления, добавление / переименование / удаление столбцов, даже добавление или удаление строк . Во время выполнения поток данных выполняется в среде Spark, а не в среде выполнения фабрики данных.
Конвейер может работать без потока данных, но поток данных не может работать без конвейера.