Question

В рамках моего текущего проекта мне нужно обработать 19 ТБ данных, размещенных на Amazon S3 ( Common Crawl набор данных) в моем кластере Hadoop.

Подход, который я хотел бы использовать, заключается в загрузке набора данных партиями:

Загрузка N гигабайт файлов
Используйте Hadoop для обработки файлов, сохранения результатов и удаления файлов с данными (при одновременной загрузке следующих N гигабайт файлов)
Повторите

Такой подход позволил бы мне обрабатывать данные с моей ограниченной емкостью хранения.

Вопрос : Какой подход я должен использовать для реализации этого? Я подумал об использовании двух заданий Hadoop - одно для загрузки данных, а другое для их обработки после завершения первого. Это лучшее решение?

Существуют ли какие-либо инструменты, которые имеют в виду этот вариант использования?

Обработка данных общего сканирования с ограниченным хранилищем

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Обработка данных общего сканирования с ограниченным хранилищем

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Похожие темы