Количество ядер на физическую машину, кажется, не очень хороший показатель, я думаю. На самом деле мы не видели, чтобы это число росло особенно нелинейным образом, и многоядерные аппаратные средства стали доступны COTS с 90-х годов (хотя в то время они были относительно специализированными). Если ваша задача действительно параллельна, то число ядер в четыре раза не должно сильно ее менять. У нас всегда был выбор более быстрых, но с меньшим количеством ядер, которые все равно будут доступны вам через 6 лет, если вы обнаружите, что вы плохо масштабируете текущее количество ядер.
Если ваше приложение действительно смущает параллель, почему вы не желаете рассматривать решения для графических процессоров?
Как быстро вы планируете вращать оборудование? Оставить старые машины, пока они не умрут, или активно заменить их, когда они начнут замедлять работу кластера? Сколько машин мы говорим? Какую технологию межсоединений вы рассматриваете? Для многих кластерных приложений это ограничивающий фактор.
Статья drdobbs, приведенная выше, не является плохим анализом, но я думаю, что она не совсем понятна. Пройдет немало времени, прежде чем многие основные приложения смогут воспользоваться преимуществами действительно параллельного общего вычислительного оборудования (и многие задачи просто не смогут распараллелить много), и когда они это сделают, они будут использовать графические карты и (в меньшей степени степень) звуковые карты как специализированное оборудование, которое они используют для этого.