Вы смотрели на Java Matrix Benchmark ? Он сравнивает производительность между несколькими наиболее распространенными пакетами Java-линейной алгебры - включая пару, которые используют / вызывают собственный код. Умножение матриц - это, конечно, одна из проверенных / сравненных вещей, и последнее тестирование производительности было выполнено на двухъядерном процессоре Intel Xeon.
Чего вы не видите, так это того, как эти библиотеки работают с разреженными матрицами (или поддерживают ли они это вообще).
Можно добиться очень хорошей производительности с помощью чистой реализации Java, но если вы хотите максимально возможной производительности с матрицами такого большого размера, вам нужно "оставить JVM".