Обработка 8 ГБ файла в Nifi может быть неэффективной.Вы можете попробовать другой вариант: -
ListSFTP -> ExecuteSparkInteractive -> RouteOnAttributes ----> ....
Здесь вам не нужно фактически передавать данные через Nifi, Просто передайте расположение файла (может быть расположение hdfs или не-hdfs) в атрибуте nifi и напишите код pyspark или spark scala для чтения этого файла (вы можете запустить этот код через ExecuteSparkInteractive).Код будет выполнен на кластере искр, и только результат задания будет отправлен обратно в Nifi, который вы можете использовать для маршрутизации потока nifi (используя процессор RouteOnAttribute).
Примечание.Нифи.
Надеюсь, что это полезно.