Обновление данных в режиме реального времени (подход CDC) из mysql в HDFS или таблицу Hive - PullRequest
0 голосов
/ 29 мая 2019

Я установил CDH 5.16 на сервере RHEL 7 и установил kafka отдельно. Я пытаюсь загрузить данные из таблицы mysql в HDFS или Hive в режиме реального времени (подход CDC). То есть, если некоторые данные обновляются или добавляются в mysql table, они должны быть немедленно отражены в таблице HDFS или Hive.

Подход, который я придумал:

Используйте kafka-connect для подключения к mysql серверу и отправки данных таблицы в тему kafka и напишите потребительский код в spark-stream, который читает данные из темы и сохраните его в HDFS. Одна из проблем этого подхода заключается в том, что таблица кустов поверх этих файлов должна обновляться периодически для отображения обновления.

Я также узнал об интеграции Kafka-Hive в HDP 3.1. К сожалению, я использую Hadoop 2.6.0. Так что не могу использовать эту функцию.

Есть ли другой лучший способ добиться этого?

Я использую Hadoop 2.6.0 и CDH 5.16.1

...