Вы можете хранить 1 файл с 1 ГБ. Hadoop автоматически сохранит этот файл в 8 блоках. Hadoop предназначен для больших файлов, а не для маленьких файлов. Обратите внимание, что Block - это физическое хранилище в hadoop.
Поскольку вы не упомянули размер разбиения в кластере, поэтому я предполагаю, что он составляет 128 МБ. Сплит - это то, от чего зависит параллелизм. Таким образом, если вы обрабатываете файл размером 1 ГБ на 128 разделенных форматах, будет вызвано 8 сопоставителей (по 1 сопоставителю на каждое разбиение). Если вы храните 8 файлов по 128 Мб каждый. На вашем Namenode будет ненужная служебная информация для поддержки информации об этих 8 файлах. В случае 8 файлов производительность может быть более или менее похожей по сравнению с 1 ГБ файла, но это определенно будет лучше в случае 1 ГБ файла с 8 блоками.
Не путайте с блоками в hadoop, они просто хранилищеБлок, как и другая файловая система. Hadoop автоматически позаботится о хранении независимо от размера файла и разделит файлы на блоки. Хранение небольших файлов будет ненужным в операциях ввода / вывода.