Я настраиваю кластер Hadoop для тестирования / PoC. Есть ли сегодня что-нибудь, что нельзя сделать со Spark в качестве движка обработки? Мне кажется, что Spark заменил MR, и все другие инструменты / абстракции, построенные вокруг Hadoop, также совместимы со Spark (Hive, Sqoop, Flume, HBase, Pig ...) - есть ли другие ограничения?
Как я понимаю, Spark по крайней мере так же быстр, как MR, даже для пакетных заданий, и если вы хотите расширить свои варианты использования в будущем (потоковая передача), вам все равно придется адаптироваться к Spark.
Я спрашиваю, потому что на сегодняшний день большинство вводных и обучающих программ рассказывают вам о Hadoop и MapReduce.