Допустим, у вас есть файл объемом 2 ГБ, и вы хотите поместить этот файл в HDFS, тогда будет 2 ГБ / 128 МБ = 16 блоков, и эти блоки будут распределены по различным узлам данных.
Разделение данныхпроисходит на основе смещения файлов. Целью разделения файла и его хранения на различные блоки является параллельная обработка и восстановление после сбоя данных.
Разделение - это логическое разделение данных, в основном используемое при обработке данных с использованием программы Map / Reduce или других данных. методы обработки в Hadoop. Размер разделения - это значение, определяемое пользователем, и можно выбрать его собственный размер разделения на основе объема данных (объем обрабатываемых данных).
Разделение в основном используется для управления количеством картографов в программе Map / Reduce. Если вы не определили размер входного разделения в программе Map / Reduce, то разделение блоков HDFS по умолчанию будет рассматриваться как входное разделение. (т. е. Input Split = Input Block. Таким образом, для файла размером 2 ГБ будет запущено 16 преобразователей). Если размер Split определен как 100 МБ (скажем так), то будет запущен 21 Mapper (20 Mappers для 2000 МБ и 21-й Mapper для 48 МБ).
Надеюсь, это очистит ваши сомнения.