Как синхронизировать данные РСУБД с данными HDFS - PullRequest
0 голосов
/ 26 апреля 2018

У меня есть база данных Oracle, содержащая 300 таблиц, и все типы операций DML (вставка / обновление / удаление) выполняются над этими таблицами.Я перенес мои текущие данные из RDBMS в HDFS, используя Sqoop.Теперь я хочу синхронизировать данные в реальном времени с данными HDFS всякий раз, когда выполняется какая-либо операция DML.Могу ли я использовать Kafka для этой цели и будет ли он поддерживать операции обновления и удаления.

Ответы [ 2 ]

0 голосов
/ 29 апреля 2018

Может быть, вам следует пересмотреть свой выбор с HDFS.Например, Apache Kudu может лучше подойти для вашего случая использования.Особенно с учетом того, что вашим основным источником данных является СУБД.

Дополнительная информация:

0 голосов
/ 26 апреля 2018

Да, в определенной степени.Вы можете передавать потоковые базы данных в Kafka , но то, как вы обрабатываете обновления и удаляет посадку в HDFS, зависит от того, как вы получаете данные из своего источника, и от причин, по которым вы перешли на HDFS.Вы можете использовать приемник HDFS для потоковой передачи с Kafka на HDFS, но это не приведет к обновлению / удалению данных, уже присутствующих в HDFS.Для этого вам понадобится пользовательская обработка.

В чем причина посадки данных в HDFS и необходимости синхронизации в реальном времени с БД?Возможно, шаблон, который вы ищете, может не подходить для HDFS (обычно это не технология реального времени)?

...