Чтобы выполнить инкрементную синхронизацию данных, вам нужно добавить флаги -update
и -delete
, которые должны заботиться о синхронизации.
hadoop distcp -pbugpcax -m 1000 -bandwidth 30 -update –delete hdfs://oldclusterip:8020 /user/hive/warehouse /user/hive/warehouse
Немного больше информации об обоих параметрах:
-update
, проверяет контрольную сумму и размер файла исходного и целевого файлов.Если сравниваемые размеры файлов отличаются, исходный файл обновляет данные целевого кластера.Если во время синхронизации старого и нового кластеров происходит запись данных, -update может использоваться для инкрементной синхронизации данных.
-delete
, если данные в старом кластере больше не существуют, данные в новомкластер будет удален.
Надеюсь, это поможет!