Как выполнить постепенную миграцию данных HDFS с помощью инструмента DistCp в Alibaba - PullRequest
0 голосов
/ 30 декабря 2018

Я пытаюсь перенести данные HDFS с помощью инструмента DistCp в Alibaba E-Mapreduce.Я понимаю, как выполнить полную миграцию данных.

Команда:

hadoop distcp -pbugpcax -m 1000 -bandwidth 30 hdfs://clusterIP:8020 /user/hive/warehouse /user/hive/warehouse

Какие параметры мне нужно добавить для достижения пошаговой синхронизации в приведенном выше коде?

1 Ответ

0 голосов
/ 30 декабря 2018

Чтобы выполнить инкрементную синхронизацию данных, вам нужно добавить флаги -update и -delete, которые должны заботиться о синхронизации.

hadoop distcp -pbugpcax -m 1000 -bandwidth 30  -update –delete hdfs://oldclusterip:8020 /user/hive/warehouse /user/hive/warehouse

Немного больше информации об обоих параметрах:

-update, проверяет контрольную сумму и размер файла исходного и целевого файлов.Если сравниваемые размеры файлов отличаются, исходный файл обновляет данные целевого кластера.Если во время синхронизации старого и нового кластеров происходит запись данных, -update может использоваться для инкрементной синхронизации данных.

-delete, если данные в старом кластере больше не существуют, данные в новомкластер будет удален.

Надеюсь, это поможет!

...