Question

У меня много данных в домене Amazon Simple DB.Я хочу запустить Hive в Elastic Map Reduce (поверх hadoop) и каким-то образом либо импортировать данные из simpledb, либо подключиться к simpledb и выполнить на нем запросы hiveql.У меня проблемы с импортом данных.Есть указатели?

Matthew Rathbone · Answer 1 · 29 июня 2011

В качестве ввода в потоковое задание hadoop вы можете иметь последовательность операторов выбора для simpleDB.

например, ваш ввод может содержать (в менее подробной форме):

collectionA between dates 123 and 234
collectionA between dates 235 and 559
collectionA between dates 560 and 3000
...

Тогда вы бы реализовали скрипт mapper, который выполнил бы следующее преобразование: input_select_statement => execute_select_statement => output_results

Это было бы очень просто при использовании потоковой передачи, потому что вы можете использовать любую библиотеку для любого языка, который вам нравится, и вам не нужно беспокоиться о реализации какого-либо сложного Java-компонента Hadoop.

Надеюсь, это поможет.

(хакерский способ сделать это было бы иметь один скрипт, который вы запускаете локально, который выполняет те же действия, что и выше, но загружает результаты в s3. Я запускаю такой скрипт каждую ночь для многих данных нашей базы данных)

Как я могу использовать Hive поверх Amazon Elastic Mapreduce для обработки данных в Amazon Simple DB?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Как я могу использовать Hive поверх Amazon Elastic Mapreduce для обработки данных в Amazon Simple DB?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы