В качестве ввода в потоковое задание hadoop вы можете иметь последовательность операторов выбора для simpleDB.
например, ваш ввод может содержать (в менее подробной форме):
collectionA between dates 123 and 234
collectionA between dates 235 and 559
collectionA between dates 560 and 3000
...
Тогда вы бы реализовали скрипт mapper, который выполнил бы следующее преобразование:
input_select_statement => execute_select_statement => output_results
Это было бы очень просто при использовании потоковой передачи, потому что вы можете использовать любую библиотеку для любого языка, который вам нравится, и вам не нужно беспокоиться о реализации какого-либо сложного Java-компонента Hadoop.
Надеюсь, это поможет.
(хакерский способ сделать это было бы иметь один скрипт, который вы запускаете локально, который выполняет те же действия, что и выше, но загружает результаты в s3. Я запускаю такой скрипт каждую ночь для многих данных нашей базы данных)