Обработка данных общего сканирования с ограниченным хранилищем - PullRequest
0 голосов
/ 07 ноября 2018

В рамках моего текущего проекта мне нужно обработать 19 ТБ данных, размещенных на Amazon S3 ( Common Crawl набор данных) в моем кластере Hadoop.

Подход, который я хотел бы использовать, заключается в загрузке набора данных партиями:

  1. Загрузка N гигабайт файлов
  2. Используйте Hadoop для обработки файлов, сохранения результатов и удаления файлов с данными (при одновременной загрузке следующих N гигабайт файлов)
  3. Повторите

Такой подход позволил бы мне обрабатывать данные с моей ограниченной емкостью хранения.

Вопрос : Какой подход я должен использовать для реализации этого? Я подумал об использовании двух заданий Hadoop - одно для загрузки данных, а другое для их обработки после завершения первого. Это лучшее решение?

Существуют ли какие-либо инструменты, которые имеют в виду этот вариант использования?

...