Во многих реальных ситуациях, когда вы применяете MapReduce, окончательные алгоритмы заканчиваются несколькими шагами MapReduce.
т.е. Map1, Reduce1, Map2, Reduce2 и т. Д.
Таким образом, у вас есть выходные данные последнего снижения, которые необходимы в качестве входных данных для следующей карты.
Промежуточные данные - это то, что вы (в общем) не хотите хранить после успешного завершения конвейера. Кроме того, поскольку эти промежуточные данные, как правило, представляют собой некоторую структуру данных (например, «карту» или «набор»), вы не хотите прилагать слишком много усилий для написания и чтения этих пар ключ-значение.
Каков рекомендуемый способ сделать это в Hadoop?
Есть ли (простой) пример, показывающий, как правильно обрабатывать эти промежуточные данные, включая последующую очистку?