Я выполнил 1 ГБ теста WordCount на одном узле, затем на 2 узлах, затем на 3 узлах, а затем на 4. Для каждого узла одно время выполнения задачи карты было разным (39.118-> 1 узел, 56.996-> 2 узла, 78.33-> 3 узла, 42.234-> 4 узла). Я не могу понять, почему это изменение, но я думал, что это из-за распределения накладных расходов. Это правильно?
Когда я запустил один и тот же тест с большим размером (8 ГБ), время выполнения одной задачи карты изменилось. Я сравнил одно время выполнения для 4 узлов (из вопроса 1) со временем, производящим от 8 ГБ, и они отличаются. Я думал, что должен получить 42.234 (или в этом диапазоне), поскольку время выполнения принадлежит 8 ГБ, но я получил 75.335. Почему это изменение происходит, когда размер блока и все конфигурации одинаковы?
Последний вопрос: когда я объединил время задач карты со временем задач сокращения, общее время отличалось от времени, отображаемого в терминале. Время терминала выше примерно на 15 секунд. Это потерянное время на связь?