Это действительно вопрос биоинформатики, но я сделаю его настолько общим, насколько смогу.Вот полу гипотетическая ситуация:
Допустим, у меня есть доступ к кластеру или даже облаку.Я хочу запустить несколько очень специфических программ в этом кластере / облаке (точнее, геномных / транскриптомных ассемблерных программ).Проблема в том, что я ожидаю, что этим программам (Velvet / Oases, Trinity и т. Д.) Потребуется большой объем оперативной памяти, консервативно более 100 ГБ, а самый большой узел в моем кластере / облаке - всего 32 ГБ.
Теперь, кроме переключениядля программы на основе MPI / Hadoop (ABySS или еще чего-нибудь), написание собственного или покупка нового компьютера, каковы мои жизнеспособные варианты?Кто-нибудь пробовал использовать распределенную операционную систему (MOSIX, Kerrighed, ...) с разделяемой памятью на нескольких узлах кластера / облака?Как насчет виртуального SMP?Что еще?
Спасибо за любую помощь!
Правка для уточнения: Скажем также, что для программ, упомянутых выше (Velvet / Oases и Trinity), требуется одна система с большим пулом оперативной памяти.В ореховой оболочке я ищу эффективный способ «вставить» кучу узлов вместе в один виртуальный суперузел, где один процесс мог бы получить доступ ко всей оперативной памяти со всех узлов, как если бы это была одна система.Я знаю, что что-то подобное могло бы дать существенный удар по производительности, но я ищу что-то, что возможно, не обязательно эффективно.
ps Извините, если моя терминология сбивает с толку.Я немного новичок в этом.