Моя постановка проблемы следующая. Моя работа в улье занимает много времени, и я чувствую, что количество картографов неадекватно.
Входная таблица содержит данные, хранящиеся в формате файла паркета, т.е. ее текущий сжатый размер намного меньше фактического размера. Поскольку его сжатый размер намного меньше, следовательно, количество разбиений становится меньше.
Я считаю, что файл в сжатом формате вводит в заблуждение mapreduce. Вы можете помочь.