Надеюсь, это кого-то достигнет, поскольку у SGE, похоже, здесь не так много гуру ...
Отказ от ответственности: я не системный менеджер, поэтому у меня нет всех важных деталей (сейчас)
В настоящее время на моем рабочем месте мы управляем сервером SGE около 3000 процессоров. В какой-то момент прошлого года мы полагаем, что испортили некоторые настройки, которые не позволяют правильно использовать ресурсы узлов. Я постараюсь включить соответствующую информацию.
Что мы в первую очередь видим, это когда работа с 16 ядрами отправляется от пользователя А против одного с 8 ядрами от пользователя Б, работа с 16 ядрами имеет приоритет. Тем не менее, похоже, что он не принимает во внимание тот факт, что пользователь A ел 400 процессоров в день по сравнению с пользователем B, который использовал <100 процессоров. Кроме того, система, похоже, неправильно разрешает пользователю C, который не запускал никаких заданий в течение 1 недели, приоритет перед пользователем A и пользователем B. </p>
То, что я хотел бы видеть, - это правильный обмен между пользователями,Это означает, что если у пользователя A есть 400 вычислений по 16 ядер в каждом, а у пользователя B - 800 вычислений по 8 ядер в каждом, нагрузка должна быть распределена поровну (возможно, с периодом в 1 неделю). Кроме того, иметь преимущество перед пользователями, которые не запускались некоторое время, было бы бонусом.
На мой взгляд, есть несколько вещей, которые мы пробовали между увеличением веса для времени в очереди, увеличением количества билетов, увеличениемвес билета. Иногда в каждом случае мы пытаемся увеличить значения на много порядков (x10, x100, x1000 и т. Д.)
В настоящее время система настроена на OFS или OSF, и, похоже, ни одна из них не имеет значения.
Я постараюсь получить текущую настройку, как только смогу, от моего администратора, но если у кого-то есть какие-либо идеи, как правильно устранить неполадки в системе, это будет очень признательно.