Я думаю, что это частично объясняется в статье, которой вы поделились в последней части.
"Существуют языковые ограничения для реализации модели потоков с общей памятью, поэтому вам следует масштабировать ее по горизонтали до большего количества машин, если это возможно, чтобы достичь максимальной пропускной способности при использовании Python или Node.js. Это может быть сложночтобы масштабировать отдельные экземпляры клиента за пределы одного ядра. "
Эта производительность, однако, только при использовании Pub / Sub. Я полагаю, что производительность языков зависит от других задач.