Написание небольших файлов в HDFS - PullRequest
0 голосов
/ 02 июня 2018

Я знаю, это звучит глупо, и я понимаю, что hadoop не предназначен для маленьких файлов, но, к сожалению, я получил более 6000 маленьких файлов размером около 50 КБ.

Каждый раз, когда я пытаюсь запустить "hadoop fs -put -f /path / FOLDER_WITH_FILES / target / HDSF_FOLDER "всегда происходит сбой одного случайного файла при установлении соединения с namenode.

java.net.SocketTimeoutException: 75000 millis timeout while waiting for channel to be ready for read. ch : java.nio.channels.SocketChannel

Мне было интересно, есть ли лучший подход для записи small в HDFS.

Спасибо

1 Ответ

0 голосов
/ 02 июня 2018

Всегда желательно объединить все ваши маленькие файлы в файл последовательности hadoop и обработать его.Это даст вам прирост производительности.

...