Какой самый быстрый способ передачи данных из Hadoop DFS в локальную файловую систему? - PullRequest
2 голосов
/ 23 января 2011

Я всегда использую "dfs -get" или "dfs -cat", но я думаю, что может быть что-то лучше. При использовании «dfs -cat | pv» мое сетевое соединение не насыщается (я получаю только 20 МБ / с). Есть ли способ распараллелить это, может быть?

1 Ответ

2 голосов
/ 26 января 2011

dfs -cat должен перемещать все данные через этот единственный процесс с плохим параллелизмом.

Что я сделал, так это запустил потоковое задание только для картографических данных, которое сбрасывает, чтобы очистить место на каждом диске, а затем выполнить rsync на одну машину. Обе части хорошо справляются с полной работой кластера; и поскольку rsync прекрасно идемпотентен, вы можете запустить его одновременно с hdfs-> local part.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...