Мне было интересно, каким будет оптимальный размер сплита в Hadoop.Интуиция говорит мне, что количество разделений должно быть как можно ближе к количеству ядер, доступных в кластере, поэтому все ядра должны работать, не создавая чрезмерных накладных расходов на создание разделений и переключение ядер из одного разделения в другое.