Hadoop (MapReduce) - не эффективный слой обработки, IMO, без адекватной настройки, так что из коробки ответ не один.Конечно, MapReduce может быть использован, и под капотом этого API зависит то, от чего зависят большинство инструментов более высокого уровня, но так как эти другие инструменты существуют, вам не захочется писать задания ETL в простом MapReduce.
Вы можете объединить Hadoop с Spark, Presto, HBase, Hive и т. Д., Чтобы разблокировать эти другие операционные или аналитические уровни, некоторые полезны для сообщения о случаях использования, а другие полезны для ETL.Опять же, множество ручек для получения полезных результатов в разумные сроки по сравнению с RDBMS (или другими инструментами NoSQL).Кроме того, для начала нужно несколько попыток узнать, как лучше всего хранить данные в Hadoop (подсказка: не в виде обычного текста, и не много маленьких файлов)
Этой ссылке уже более 5 лет, и она ссылается на Flume иSqoop.Другие технологии «веб-масштаба» показали свою ценность в то время, в то время как Flume и Sqoop показали, что их возраст может быть сложно настроить, по сравнению с такими инструментами, как Apache NiFi.