Зачем использовать Had oop Почему у нас есть Spark? - PullRequest
0 голосов
/ 26 мая 2020

Кто-нибудь, пожалуйста, подскажите, почему мы должны использовать Had oop, когда теперь доступен Spark? Как мы все знаем, Spark был создан в первую очередь для устранения ограничений Had oop?

Спасибо.

Ответы [ 2 ]

2 голосов
/ 26 мая 2020

Had oop имеет несколько компонентов, включая распределенную файловую систему, HDFS, структуру параллельной обработки данных, MapReduce и широкое хранилище столбцов, HBase.

Хотя Spark можно рассматривать как следующее: версии MapReduce для генерации с обобщенными потоками данных (DAG), Spark не заменяет HDFS или HBase. Скорее, он может использовать данные из HDFS и HBase в качестве входных данных и записывать данные обратно в них.

Надеюсь, это поможет!

1 голос
/ 26 мая 2020

И spark, и had oop основаны на концепции mapreduce. Однако искра быстрее из-за функции вычисления в памяти. Spark превратился в Spark sql, mlib, streaming, однако в oop были другие независимые, не связанные компоненты для поддержки этих функций, например pig, hive. Организация всех компонентов искры в одном компоненте дала большой импульс. Теперь, поскольку has oop менее абстрагирован, чем spark, поэтому он обеспечивает большую независимость в настройке, особенно на карте и фазе сокращения. Однако в случае искры эти настройки будут абстрагированы. \

...