Используйте FTP через Hadoop для больших файлов - PullRequest
0 голосов
/ 15 мая 2018

Нам нужна система, которая должна хранить огромное количество больших CSV-файлов (1000 файлов, каждый 1 ГБ в день).

И есть какой-то клиент должен подключиться к этой системе и загрузить CSV-файлы

система должна быть отказоустойчивой и масштабируемой ...

Я думаю о кластере Hadoop и запускаю на нем FTP-сервер ...

Подходит ли Hadoop для этого проекта?

Если нет, какая технология подходит?

1 Ответ

0 голосов
/ 15 мая 2018

Да, Hadoop Framework подходит для файлов большого размера (возможно, размер загружаемого файла превышает размер блока 256 МБ).

Основное преимущество Hadoop заключается в том, что его можно запускать дешево.аппаратное обеспечение.Hadoop имеет некоторые проблемы с обработкой небольших файлов (в килобайтах).

Hadoop обеспечивает отказоустойчивость, поскольку файлы будут реплицированы в кластере 3 раза (по умолчанию), могут быть увеличены или уменьшены.

Hadoop позволяет распределенную обработку данных по узлам.

Он также легко масштабируется.

Если вы хотите копировать между двумя кластерами HDFS, есть процесс Distcp, вы можете посмотреть вследующая ссылка

https://www.cloudera.com/documentation/enterprise/5-13-x/topics/cdh_admin_distcp_data_cluster_migrate.html

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...