Я установил CDH 5.16
на сервере RHEL 7 и установил kafka
отдельно.
Я пытаюсь загрузить данные из таблицы mysql
в HDFS
или Hive
в режиме реального времени (подход CDC
). То есть, если некоторые данные обновляются или добавляются в mysql table
, они должны быть немедленно отражены в таблице HDFS
или Hive
.
Подход, который я придумал:
Используйте kafka-connect
для подключения к mysql
серверу и отправки данных таблицы в тему kafka
и напишите потребительский код в spark-stream
, который читает данные из темы
и сохраните его в HDFS
.
Одна из проблем этого подхода заключается в том, что таблица кустов поверх этих файлов должна
обновляться периодически для отображения обновления.
Я также узнал об интеграции Kafka-Hive
в HDP 3.1. К сожалению, я использую Hadoop 2.6.0
. Так что не могу использовать эту функцию.
Есть ли другой лучший способ добиться этого?
Я использую Hadoop 2.6.0
и CDH 5.16.1