Question

Я пытаюсь перенести данные HDFS с помощью инструмента DistCp в Alibaba E-Mapreduce.Я понимаю, как выполнить полную миграцию данных.

Команда:

hadoop distcp -pbugpcax -m 1000 -bandwidth 30 hdfs://clusterIP:8020 /user/hive/warehouse /user/hive/warehouse

Какие параметры мне нужно добавить для достижения пошаговой синхронизации в приведенном выше коде?

Deepak Kamat · Answer 1 · 30 декабря 2018

Чтобы выполнить инкрементную синхронизацию данных, вам нужно добавить флаги -update и -delete, которые должны заботиться о синхронизации.

hadoop distcp -pbugpcax -m 1000 -bandwidth 30  -update –delete hdfs://oldclusterip:8020 /user/hive/warehouse /user/hive/warehouse

Немного больше информации об обоих параметрах:

-update, проверяет контрольную сумму и размер файла исходного и целевого файлов.Если сравниваемые размеры файлов отличаются, исходный файл обновляет данные целевого кластера.Если во время синхронизации старого и нового кластеров происходит запись данных, -update может использоваться для инкрементной синхронизации данных.

-delete, если данные в старом кластере больше не существуют, данные в новомкластер будет удален.

Надеюсь, это поможет!

Как выполнить постепенную миграцию данных HDFS с помощью инструмента DistCp в Alibaba

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Как выполнить постепенную миграцию данных HDFS с помощью инструмента DistCp в Alibaba

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы