Кондор, Sun Grid Engine или что-то еще? - PullRequest
5 голосов
/ 06 декабря 2009

Я пытаюсь понять, стоит ли нам попробовать Condor или Sun Grid Engine на работе (или, возможно, что-то еще).

У нас часто бывает много неиспользуемых рабочих станций WinXp. Мы надеемся, что мы сможем использовать wake-on-LAN, выполнить все наши задания, а затем автоматически отключиться. В основном мы будем использовать симуляции Matlab, Java или Python для монте-карло или исследований параметров.

С моим ограниченным знанием Condor кажется, что использование вселенной vm может быть удобным способом создания снимков без необходимости изменять существующий код.

Является ли SGE или что-то еще лучше кондора для такого рода работы?

Ответы [ 7 ]

4 голосов
/ 09 марта 2010

SGE не на самом деле поддерживает окна. Он поставляется с всевозможными предостережениями и пропущенными битами в Windows .

Я управляю пулами Condor уже много лет, и это превосходная настройка HTPC как для кражи циклов, так и для выделенного, всегда включенного оборудования на машинах с Linux и Windows. Недавнее добавление их демона Rooster позволяет переводить машины в спящий режим между циклами заданий и выводить их из спящего режима, когда в пуле появляется новая работа. У них также есть активное и очень полезное сообщество поддержки. Контрольные точки - единственная функция Condor, недоступная в Windows. Все остальное есть. С добавлением VM Universe, контрольные точки становятся все менее и менее полезными. На самом деле: чтобы успешно использовать контрольные точки, вы должны иметь возможность повторно связать весь стек кода. Так что, если вы выполняете задания Matlab, даже в Linux, контрольные точки не будут возможны.

Если у вас есть конкретные вопросы по запуску Condor в Windows, я с удовольствием на них отвечу, поделитесь с ними своим опытом. Я управляю Condor в 4 пулах по всему миру, в общей сложности около 1500 выделенных машин во всех пулах и около 1000 дополнительных настольных компьютеров, которые доступны, если пользователи захотят их пожертвовать.

3 голосов
/ 01 июля 2011

После поглощения Oracle SGE (Sun Grid Engine) существует проект Open Grid Scheduler, который все еще предлагает Grid Engine с открытым исходным кодом.

http://gridscheduler.sourceforge.net/

3 голосов
/ 07 декабря 2009

Для выделенного оборудования я бы использовал Grid Engine.

Для очистки тактов на машинах, которые могут быть использованы, я бы пошел с Кондором.

Для оборудования, к которому у вас есть выделенный доступ в течение фиксированных периодов, например, ночью или в выходные дни, я, вероятно, по-прежнему буду использовать Condor, но смогу убедить себя использовать Grid Engine.

3 голосов
/ 07 декабря 2009

Я бы начал с Кондора. Он имеет хорошую поддержку Windows, а в более новых версиях имеется встроенная поддержка отправки wake-on-lan очень настраиваемым способом, когда задания могут выполняться на определенных машинах. Он также может выключать машины на основе пользовательских политик.

1 голос
/ 26 февраля 2010

Мне недавно пришлось выбирать между кондором и SGE для клиентского проекта. Я поддерживал SGE (потому что я был более знаком с этой средой), но Кондор наконец выиграл, потому что:

  • клиентская инфраструктура ориентирована на Windows, а для решения SGE требуется машина Unix или Linux для Central Manager, + установка MS Services для Unix на вычислительных хостах
  • Поддержка и процесс установки Condor на Windows были намного проще.

Тем не менее, вы не можете использовать самые интересные функции Condor в Windows: контрольные точки недоступны или специальные операции ввода-вывода Condor. Я не использую вселенную VM, поэтому я не могу комментировать этот аспект.

0 голосов
/ 30 ноября 2010

SGE не существует ... это OGE, и это очень дорого. Иди с Кондором.

0 голосов
/ 23 февраля 2010

Я только попробовал Кондор, и пытаться настроить его было больно. Если вам нужны все циклы часов, которые вы можете использовать полностью, используйте Condor.

Я собираюсь попробовать SGE, и я расскажу вам, как это происходит. Однако в моей компании люди имели опыт установки SGE, поэтому я, вероятно, скажу, что SGE проще.

...