Обычно я бы рекомендовал либо TotalView , либо DDT для отладки параллельных программ. Тем не менее, насколько я знаю, ни один из них не реализован для Mac OS X. Хотя я и являюсь поклонником Mac, это убедительная причина для запуска Linux на кластере или суперкомпьютере.
Если у вас Linux в вашем кластере, я бы также рекомендовал параллельный профилировщик, такой как ThreadAnalyzer Intel или OPT Allinea (та же ссылка, что и выше). Опять же, для серьезного параллельного развития такой инструмент просто необходим. Попытки проанализировать параллельную производительность или выяснить причины плохого масштабирования с помощью инструментов, разработанных для последовательных программ, - пустая трата времени.
Я озадачен, почему аспирант чувствует себя ограниченным FOSS. В университетах, которые я знаю лучше всего (я допускаю только пару), есть все виды коммерческих компиляторов и других инструментов. Я не большой поклонник GCC. Тем более я фанат наличия только одного компилятора; чем больше у вас компиляторов, тем больше вы узнаете о том, что они могут делать. По моему опыту, компиляторы, которые генерируют самый быстрый код, обычно не являются теми, которые производят лучшую диагностику. Мне нравится иметь оба на разных стадиях разработки.
Что касается IDE - я использую Emacs. На это сказал Nuff.