Мне придется когда-нибудь проверять Hoard, Google Perftools и jemalloc. На данный момент мы используем scalable_malloc от Intel Threading Building Blocks, и он работает достаточно хорошо.
Что бы там ни было, мы используем C ++ в Windows, хотя большая часть нашего кода будет прекрасно компилироваться с gcc. Если нет веских причин для перехода на Redhat (основной дистрибутив Linux, который мы используем), я сомневаюсь, что это стоит головной боли / политической проблемы.
Я бы с удовольствием использовал Erlang, но сейчас есть много способов сделать это заново. Если подумать о требованиях, связанных с разработкой Erlang в телекоммуникационной среде, то они очень похожи на наш мир (электронная торговля). Книга Армстронга у меня в стопке:)
В ходе моего тестирования с целью масштабирования от 4 до 16 ядер я научился оценивать стоимость любой блокировки / конкуренции в параллельной части кода. К счастью, у нас есть большая часть, которая масштабируется с данными, но даже сначала она не сработала из-за дополнительной блокировки и распределения памяти.