Использование конвейера данных Hadoop - PullRequest
0 голосов
/ 03 ноября 2019

Вот мой вариант использования:

  • У меня есть некоторые данные, хранящиеся в Hadoop (файлы HDFS, а затем представления Hive), которые принимаются 5 раз в день.
  • Мне нужнообработать эти данные (serviceA)
  • Затем, как можно скорее, мне нужно вернуть их в Hadoop (чтобы поделиться результатами с сообществом) и записать их в базу данных Oracle (serviceB).

Как я могу это сделать?

Я думал, что используя Spark, чтобы получить данные из Hadoop, обработать их и записать обратно. Но как я могу обновить свою базу данных Oracle? Ограничения:

  • Нет Scoop
  • Нет вызовов API между serviceA и serviceB (большие данные)
  • Нет прямой записи из serviceA в базу данных serviceB

Ответы [ 2 ]

1 голос
/ 03 ноября 2019

Вы можете обрабатывать данные с помощью Spark и сохранять результаты обратно в таблицу HDFS / Hive, а когда результаты будут готовы, вы можете использовать экспорт данных в Oracle с помощью Sqoop

. Вы можете следовать этому простому руководству * 1004. * экспортировать данные из Hive в Oracle;или следуйте инструкциям Sqoop

0 голосов
/ 03 ноября 2019

Если вы используете искру. Вы можете просто написать, используя искры JDBC. см.

Из документации:

// Saving data to a JDBC source
jdbcDF.write()
  .format("jdbc")
  .option("url", "jdbc:postgresql:dbserver")
  .option("dbtable", "schema.tablename")
  .option("user", "username")
  .option("password", "password")
  .save();
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...