Получить данные из оракула и обработать с помощью искры в кластере EMR - PullRequest
0 голосов
/ 17 мая 2018

У меня есть стол оракула, имеющий около 30 столов.Я хочу сбросить данные из этих таблиц за определенный период времени в кластер EMR и выполнить запрос куста, который у меня есть к данным.Я хотел бы использовать свечи и AWS EMR для выполнения этого.Это будет запланированная работа, которая должна выполняться каждые 4 часа.Количество выбранных данных будет порядка нескольких 100 записей (каждые 4 часа).Как я могу получить данные из оракула и выполнить запрос улья к данным?

1 Ответ

0 голосов
/ 17 мая 2018

Я бы добавил комментарий, но не набрал достаточно очков, поэтому пишу здесь.

Если я вас правильно понял, вы хотите получать +/- 100 строк из Oracle каждые 4 часа, верно? Если да, то зачем вам это делать с Spark или Hive? Вы не можете просто создать представление непосредственно в Oracle с этими 100 строками каждые 4 часа и запросить его напрямую? Проблема заключается в том, что если данные помещаются на вашем компьютере и не должны быстро расти, вам не нужно распределенное решение.

...