Как я могу использовать Hive поверх Amazon Elastic Mapreduce для обработки данных в Amazon Simple DB? - PullRequest
1 голос
/ 26 июня 2010

У меня много данных в домене Amazon Simple DB.Я хочу запустить Hive в Elastic Map Reduce (поверх hadoop) и каким-то образом либо импортировать данные из simpledb, либо подключиться к simpledb и выполнить на нем запросы hiveql.У меня проблемы с импортом данных.Есть указатели?

1 Ответ

2 голосов
/ 29 июня 2011

В качестве ввода в потоковое задание hadoop вы можете иметь последовательность операторов выбора для simpleDB.

например, ваш ввод может содержать (в менее подробной форме):

collectionA between dates 123 and 234
collectionA between dates 235 and 559
collectionA between dates 560 and 3000
...

Тогда вы бы реализовали скрипт mapper, который выполнил бы следующее преобразование: input_select_statement => execute_select_statement => output_results

Это было бы очень просто при использовании потоковой передачи, потому что вы можете использовать любую библиотеку для любого языка, который вам нравится, и вам не нужно беспокоиться о реализации какого-либо сложного Java-компонента Hadoop.

Надеюсь, это поможет.

(хакерский способ сделать это было бы иметь один скрипт, который вы запускаете локально, который выполняет те же действия, что и выше, но загружает результаты в s3. Я запускаю такой скрипт каждую ночь для многих данных нашей базы данных)

...