Любая кластерная система, включая Hadoop, имеет как преимущества, так и вред.Преимущества - возможность параллельных вычислений, вред для распределения задач - накладные расходы.
Предположим, я не хочу иметь никаких преимуществ и использую один узел.Как я могу запустить Hadoop, чтобы полностью избежать накладных расходов?Достаточно ли работы на псевдораспределенном узле с одним узлом?Или это все еще будет иметь некоторые издержки распараллеливания?