К сожалению, CompositeInputFormat должен игнорировать размер блока / разбиения.В CompositeInputFormat входные файлы должны быть отсортированы и разделены одинаково ... поэтому Hadoop не может определить, где разделить файл, чтобы сохранить это свойство.У него нет возможности определить, где разбить файл, чтобы сохранить организованные файлы.
Единственный способ обойти это - разделить и разбить файлы вручную на более мелкие разбиения.Вы можете сделать это, передавая данные через задание mapreduce (возможно, только для отображения и преобразования идентификаторов) с большим количеством редукторов.Обязательно пропустите оба ваших набора данных с одинаковым количеством редукторов.