Question

Я всегда использую "dfs -get" или "dfs -cat", но я думаю, что может быть что-то лучше. При использовании «dfs -cat | pv» мое сетевое соединение не насыщается (я получаю только 20 МБ / с). Есть ли способ распараллелить это, может быть?

mrflip · Answer 1 · 26 января 2011

dfs -cat должен перемещать все данные через этот единственный процесс с плохим параллелизмом.

Что я сделал, так это запустил потоковое задание только для картографических данных, которое сбрасывает, чтобы очистить место на каждом диске, а затем выполнить rsync на одну машину. Обе части хорошо справляются с полной работой кластера; и поскольку rsync прекрасно идемпотентен, вы можете запустить его одновременно с hdfs-> local part.

Какой самый быстрый способ передачи данных из Hadoop DFS в локальную файловую систему?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Какой самый быстрый способ передачи данных из Hadoop DFS в локальную файловую систему?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов