В рамках моего текущего проекта мне нужно обработать 19 ТБ данных, размещенных на Amazon S3 ( Common Crawl набор данных) в моем кластере Hadoop.
Подход, который я хотел бы использовать, заключается в загрузке набора данных партиями:
- Загрузка
N
гигабайт файлов
- Используйте Hadoop для обработки файлов, сохранения результатов и удаления файлов с данными (при одновременной загрузке следующих
N
гигабайт файлов)
- Повторите
Такой подход позволил бы мне обрабатывать данные с моей ограниченной емкостью хранения.
Вопрос : Какой подход я должен использовать для реализации этого? Я подумал об использовании двух заданий Hadoop - одно для загрузки данных, а другое для их обработки после завершения первого. Это лучшее решение?
Существуют ли какие-либо инструменты, которые имеют в виду этот вариант использования?