Я пытаюсь загрузить огромные данные, состоящие из 225 ГБ (номер файла ~ 1,75 000), с сервера SFTP и копировать данные в HDFS.
Для реализации вышеуказанного сценария мы использовали 2 процессора.
- GetSFTP (для получения файлов с SFTP-сервера)
Настроенный процессор -> serach recursively = true; используйте Natural Ordering = true; Размер пакета удаленного опроса = 5000; параллельные задачи = 3
2.PutHDFS (передача данных в HDFS)
Настроенный процессор -> одновременные задачи = 3; Стратегия разрешения конфликтов = заменить; Ресурсы конфигурации Hadoop; Справочник
Но через некоторое время копирование данных прекращается и его размер не обновляется в HDFS.
Когда я устанавливаю размер пакета удаленного опроса в настройках GetSFTP на 5000 -> общий объем данных, передаваемых в HDFS, составляет 6,4 ГБ, при установке на 20000 -> общий объем данных, передаваемых в HDFS, составляет 25 ГБ
Но я не могу понять, что я делаю неправильно.