CombinedFileInputFormat, записи не распределены равномерно по CombineFileSplit - PullRequest
0 голосов
/ 09 ноября 2018

Есть много маленьких файлов среди входов в мою задание hadoop (также много других больших файлов).

Чтобы оптимизировать размер входных данных для каждой задачи сопоставления, я использую CombinedFileInputFormat . После работы размер входных данных для каждой задачи сопоставления становится более сбалансированным.

Но я не могу наблюдать значительного фактического улучшения производительности. Некоторые задачи выполняются в течение нескольких секунд, другие - более 30 минут. После проверки счетчика задач выясняется, что, хотя эти два типа задач имеют одинаковый размер входных данных, во входных данных существует огромный разрыв количества записей.

Входные данные в формате AVRO, некоторые записи имеют много полей, некоторые другие имеют только одно или два, и мы не можем разбить одну запись на разные файлы. Таким образом, даже два набора данных имеют одинаковый размер, фактическое количество записей в них совершенно различно.

Похоже на сложную проблему баланса нагрузки. Может ли кто-нибудь предложить некоторые предложения, пожалуйста?

Спасибо и всего наилучшего

...