Question

Вот мой вариант использования:

У меня есть некоторые данные, хранящиеся в Hadoop (файлы HDFS, а затем представления Hive), которые принимаются 5 раз в день.
Мне нужнообработать эти данные (serviceA)
Затем, как можно скорее, мне нужно вернуть их в Hadoop (чтобы поделиться результатами с сообществом) и записать их в базу данных Oracle (serviceB).

Как я могу это сделать?

Я думал, что используя Spark, чтобы получить данные из Hadoop, обработать их и записать обратно. Но как я могу обновить свою базу данных Oracle? Ограничения:

Нет Scoop
Нет вызовов API между serviceA и serviceB (большие данные)
Нет прямой записи из serviceA в базу данных serviceB

Naga · Answer 1 · 03 ноября 2019

Вы можете обрабатывать данные с помощью Spark и сохранять результаты обратно в таблицу HDFS / Hive, а когда результаты будут готовы, вы можете использовать экспорт данных в Oracle с помощью Sqoop

. Вы можете следовать этому простому руководству * 1004. * экспортировать данные из Hive в Oracle;или следуйте инструкциям Sqoop

Ehud Lev · Answer 2 · 03 ноября 2019

Если вы используете искру. Вы можете просто написать, используя искры JDBC. см.

Из документации:

// Saving data to a JDBC source
jdbcDF.write()
  .format("jdbc")
  .option("url", "jdbc:postgresql:dbserver")
  .option("dbtable", "schema.tablename")
  .option("user", "username")
  .option("password", "password")
  .save();

Использование конвейера данных Hadoop

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Использование конвейера данных Hadoop

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы