Выгода от использования MapReduce вместо Spark сегодня? - PullRequest
2 голосов
/ 19 марта 2019

Я настраиваю кластер Hadoop для тестирования / PoC. Есть ли сегодня что-нибудь, что нельзя сделать со Spark в качестве движка обработки? Мне кажется, что Spark заменил MR, и все другие инструменты / абстракции, построенные вокруг Hadoop, также совместимы со Spark (Hive, Sqoop, Flume, HBase, Pig ...) - есть ли другие ограничения? Как я понимаю, Spark по крайней мере так же быстр, как MR, даже для пакетных заданий, и если вы хотите расширить свои варианты использования в будущем (потоковая передача), вам все равно придется адаптироваться к Spark.

Я спрашиваю, потому что на сегодняшний день большинство вводных и обучающих программ рассказывают вам о Hadoop и MapReduce.

1 Ответ

2 голосов
/ 19 марта 2019

Проще говоря, нет, в наши дни нет причин использовать MapReduce. Spark быстрее, с ним легче работать, он постоянно совершенствуется, больше коннекторов, больше пользователей, больше оптимизаций ...

MapReduce используется в учебных пособиях, поскольку многие учебные пособия устарели, а также потому, что MapReduce демонстрирует основные методы обработки данных во всех распределенных системах. По моему мнению, любой, кто хочет работать с «большими данными», должен (хотя бы концептуально) понять MapReduce.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...