Datafusion и Datapred могут выполнять одно и то же. Однако их исполнение отличается.
- Datafusion создает конвейер Spark и запускает его в кластере Dataproc
- Datapred создает конвейер Beam и запускает его в потоке данных
IMO, Datafusion - это большеПредназначен для приема данных из одного источника в другой с небольшим преобразованием. Dataprep больше предназначен для подготовки данных (как его имя означает), очистки данных, создания новых столбцов, разделения столбцов. Dataprep также обеспечивает понимание данных для помощи вам в ваших рецептах.
Кроме того, Beam является частью Tensorflow Extended , и ваш конвейер Data Engine будет более последовательным, если вы используете инструментсовместим с Beam
То есть я рекомендую Dataprep вместо Datafusion.