Я думаю, что эта проблема имеет несколько аспектов.Первый - что вы можете достичь с помощью обычных технологий SQL, таких как MySQL / Oracle и т. Д. Если вы можете получить решение с их помощью - я думаю, что это будет лучшее решение.
Следует также отметить, что обработка табличных данных по методу цикла будет намного медленнее, чем в обычной СУБД.Итак, я перехожу ко второму аспекту - готовы ли вы создать кластер hadoop с более чем 4 машинами?Я думаю, что 4-6 машин - это минимум, чтобы почувствовать какую-то выгоду.
Третий аспект - вы готовы ждать загрузки данных в базу данных - это может занять время, но тогда запросы будут быстрыми.Поэтому, если вы делаете несколько запросов для каждого набора данных - это дает преимущество hadoop.
Возвращаясь к исходному вопросу - я думаю, что вам нужно как минимум 100-200 ГБ данных, чтобы обработка Hadoop имела некоторый смысл.2 ТБ, я думаю, является четким признаком того, что hadoop может быть хорошим выбором.