Я начал изучать Hadoop. Если мое понимание правильное, я могу обработать очень большой файл, и он будет разделен на разные узлы, однако, если файл сжат, то файл не может быть разделен, и обработка одного узла должна быть выполнена (эффективно уничтожая преимущество запуск mapreduce ver кластера параллельных машин).
Мой вопрос, если предположить, что вышеприведенное верно, возможно ли разделить большой файл вручную на куски фиксированного размера или ежедневные куски, сжать их и затем передать список сжатых входных файлов для выполнения преобразования карты?