Java использует TLAB (Thread Local Allocation Buffer) для объектов малого и среднего размера. Это означает, что каждый поток может распределять объекты одновременно. то есть вы не получаете замедления для использования нескольких потоков.
В целом, большее количество процессоров улучшает проблемы с процессором. Это связанные с IO задачи, в которых один процессор может использовать всю доступную пропускную способность, например, доступ к диску, который не работает быстрее при использовании нескольких процессоров.
Самый простой способ снизить стоимость создания объекта - создать / удалить меньше объектов. Существует распространенное предположение, что создание объектов неизбежно, но последние 2,5 года я работал над приложениями, которые собирают GC менее одного раза в день, даже под рабочей нагрузкой.
Большинство приложений не работают таким образом, потому что им это не нужно. Однако, если вам нужно минимизировать создание объекта, вы можете.