У меня есть требование, чтобы почти 250 ГБ входного zip-файла из SFTP сохранялись в HDFS с использованием Spark с использованием scala для повышения производительности.
Я пробовал использовать сценарий Shell, который сохраняет zip-файл в HDFS для файлов небольшого размера