Не удалось найти достаточно информации в интернете, поэтому спрашивайте здесь:
Предполагается, что я записываю на диск огромный файл, сотни терабайт, что является результатом редукции карты (или искры или чего-то еще).Как бы mapreduce эффективно записал такой файл в HDFS (возможно, параллельный?), Который также мог бы быть прочитан позже и параллельно?
Насколько я понимаю, HDFS просто основана на блоках (например, 128 МБ).таким образом, чтобы написать второй блок, вы должны написать первый блок (или, по крайней мере, определить, какой контент пойдет в блок 1).Скажем, это файл CSV, вполне возможно, что строка в файле будет занимать два блока - как мы можем прочитать такой CSV для разных картографов в mapreduce?Нужно ли делать какую-то умную логику, чтобы прочитать два блока, объединить их и прочитать правильную строку?