Есть много маленьких файлов среди входов в мою задание hadoop (также много других больших файлов).
Чтобы оптимизировать размер входных данных для каждой задачи сопоставления, я использую CombinedFileInputFormat . После работы размер входных данных для каждой задачи сопоставления становится более сбалансированным.
Но я не могу наблюдать значительного фактического улучшения производительности. Некоторые задачи выполняются в течение нескольких секунд, другие - более 30 минут. После проверки счетчика задач выясняется, что, хотя эти два типа задач имеют одинаковый размер входных данных, во входных данных существует огромный разрыв количества записей.
Входные данные в формате AVRO, некоторые записи имеют много полей, некоторые другие имеют только одно или два, и мы не можем разбить одну запись на разные файлы. Таким образом, даже два набора данных имеют одинаковый размер, фактическое количество записей в них совершенно различно.
Похоже на сложную проблему баланса нагрузки.
Может ли кто-нибудь предложить некоторые предложения, пожалуйста?
Спасибо и всего наилучшего