Перенос данных из No SQL в RDBMS - PullRequest
0 голосов
/ 31 марта 2020

У нас есть данные, существующие в HBase, и мы хотим перейти на AWS Aurora (MySQL), и нам нужно использовать существующие данные, поэтому необходимо каким-то образом загрузить данные No SQL в Aurora.

Это не очень большая база данных. Всего несколько таблиц.

Существуют ли передовые практики / инструменты для переноса данных из No SQL в реляционную БД? Я видел много вопросов по inte rnet, которые задают обратное (DB -> No SQL), но мое требование немного отличается, и я не нахожу никакой полезной информации.

Может кто-нибудь, пожалуйста, помогите? С чего мне начать?

1 Ответ

0 голосов
/ 31 марта 2020

Одним простым способом сделать это без написания большого количества пользовательского кода было бы использование Spark-HBase Connector из Hortonworks (SHC) для чтения данных из таблицы HBase в кадр данных Spark и записи этого кадра данных в Таблица MySQL. Ключевой задачей было бы заставить SHC работать, потому что, по моему опыту, он чрезвычайно чувствителен к версии. Таким образом, хитрость заключается в правильной координации вашей версии Spark, HBase и SHC (и найти правильную комбинацию сложнее, чем вы думаете).

Однако, если вам удастся получить все Правильно, поэтому выполнение вышеупомянутых действий - это вопрос нескольких строк кода в Jupyter Notebook или Pyspark. Вы можете запустить это на Yarn для распараллеливания рабочей нагрузки, если она велика. Должно сработать. Попробуйте.

...