Если вам нужна большая куча, то вопросы производительности довольно спорны, не так ли? Или у вас есть план горизонтального масштабирования?
Основная проблема, с которой я столкнулся в 64-битных приложениях, заключается в том, что полная сборка мусора может занять очень много времени (поскольку она основана на количестве живых объектов). Итак, вы хотите тщательно настроить параметры GC, чтобы избежать полных сборов (я слышал один анекдот о компании, у которой было 64 Гб кучи, и настроил свой GC так, чтобы они никогда не перешли на полный GC; они просто закрыли вниз один раз в неделю).
Кроме этого, следует признать, что Java является 32-битной по своему дизайну, поэтому вряд ли вы увидите значительное увеличение производительности при перемещении данных по 64 бита за раз. И вы все еще ограничены 32-битными индексами массивов.