Непрерывная миграция данных из MySQL в Hbase - PullRequest
1 голос
/ 29 марта 2012

Я установил hadoop и hbase для аналитики в реальном времени. Проблема, с которой я сталкиваюсь, заключается в том, чтобы перенести данные в режиме онлайн из mysql в Hbase.

Инструмент sqoop полезен для выполнения массовых миграций данных, есть ли способ, которым данные из mysql могут быть переданы в HBase в режиме онлайн (тогда и там, когда происходит вставка / обновление / удаление). Так что аналитика в реальном времени может быть достигнута. Не в реальном времени.

Пожалуйста, помогите мне в этом.

Ответы [ 2 ]

2 голосов
/ 07 августа 2012

Чтобы добавить больше информации о том, где использовать Hive в вашем проекте, есть несколько настроек, которые вы можете интегрировать Hive и HBase для совместной работы.Например, если вы используете AWS, вы можете установить HBase / Hive в одном и том же кластере hadoop, чтобы совместно выполнять запросы на соединение таблиц Hive и таблицы Hbase.Или вы можете разделить HBase и Hive на два разных кластера и ссылаться на данные HBase из ваших запросов Hive.Если вы используете дистрибутив Cloudera, вы можете сделать то же самое.

Ссылка:

1 голос
/ 31 марта 2012

Думаю, вы столкнулись с задачей настройки репликации между разными СУБД. Это тот случай, когда собственный механизм репликации бесполезен. Простейшим решением было бы создать набор триггеров для таблиц, которые вы хотите реплицировать, и записать данные для репликации в дополнительную таблицу. Затем вы можете настроить мониторинг этой таблицы и применить изменения к HBase.
Более надежным, но более сложным решением было бы проанализировать журнал MySQL, используемый для его собственного механизма репликации, и применить изменения к HBase.
В то же время мне не ясно, как HBase будет предоставлять вам аналитику в реальном времени. Я написал abit об этой проблеме здесь: Группировка по In HBase

...