Каков наилучший способ синхронизации плоского файла в HDFS с большой таблицей базы данных, в которой могут быть обновления строк?
Такие инструменты, как sqoop, кажутся полезными, поскольку они позволяют постепенно извлекать новые строки из таблиц, однако я не вижу простого способа обработки обновлений строк.
Какие методы мы можем использовать для эффективной обработки обновлений строк? Ночной дамп целых таблиц - это то, чего мы бы лучше избегали.