Скопируйте файлы с SFTP-сервера на HDFS, используя Nifi - PullRequest
0 голосов
/ 09 января 2019

Я пытаюсь загрузить огромные данные, состоящие из 225 ГБ (номер файла ~ 1,75 000), с сервера SFTP и копировать данные в HDFS.

Для реализации вышеуказанного сценария мы использовали 2 процессора.

  1. GetSFTP (для получения файлов с SFTP-сервера)

Настроенный процессор -> serach recursively = true; используйте Natural Ordering = true; Размер пакета удаленного опроса = 5000; параллельные задачи = 3

2.PutHDFS (передача данных в HDFS)

Настроенный процессор -> одновременные задачи = 3; Стратегия разрешения конфликтов = заменить; Ресурсы конфигурации Hadoop; Справочник

Но через некоторое время копирование данных прекращается и его размер не обновляется в HDFS. Когда я устанавливаю размер пакета удаленного опроса в настройках GetSFTP на 5000 -> общий объем данных, передаваемых в HDFS, составляет 6,4 ГБ, при установке на 20000 -> общий объем данных, передаваемых в HDFS, составляет 25 ГБ

Но я не могу понять, что я делаю неправильно.

1 Ответ

0 голосов
/ 09 января 2019

Убедитесь, что у вас есть scheduled GetSFTP processor для запуска на основе таймера Drivern (или) Cron Driven.

Идеальным решением будет использование ListSFTP + FetchSFTP процессоров вместо GetSFTP процессора.

См. эту ссылку для настройки / использования процессоров List + Fetch sftp.

...