Я искал различия между Spark и MapReduce, и все, что я действительно нашел, это то, что Spark работает в памяти и на диске, что делает его значительно быстрее.
Я также читал, что MapReduce лучше подходит для действительно больших наборов данных, потому что вы можете загружать на диск гораздо больше данных, чем в память?
Но, по-видимому, в Spark вы все равно перемещаете данные между памятью и диском, поэтому, если у вас не хватает места в памяти, вы перемещаете некоторые данные обратно на диск и затем вводите новые данные для обработки.
В принципе, есть ли реальная причина больше использовать MapReduce?