Архитектура сервера для Spark: автономный или кластерный? - PullRequest
0 голосов
/ 06 марта 2020

Я планирую приобрести высококачественный сервер для заданий Spark и ML. Объем данных ~ 200 ТБ, выделенный графический процессор Tesla запланирован, а HDFS не требуется. Я застрял с необычным наблюдением за моей первоначальной гипотезой - «для данного бюджета, предпочитаю один узел с большим количеством ядер (например, серия EPY C с до 128 ядрами) по сравнению с многоузловой системой с таким же количеством ядер. Наш потенциальный поставщик также не возражал против этого.

Я провел другой тест (~ 100 с) на корпоративном сервере и обнаружил, что он масштабируется внушительно. Когда я выполнил то же самое на 24-ядерном кластере с достаточным объемом ОЗУ (для небольшой работы) с несколькими исполнителями, я обнаружил, что это не лучше, а скорее хуже, чем в локальном режиме, несмотря на использование ресурсов для параллельной работы! В настоящее время я не в состоянии раскрыть характер теста. Тем не менее, учитывая, что целевая проблема отличается от этого программного обеспечения, мне интересно знать, можно ли с уверенностью заявить, что если две системы доступны, одна с одним узлом, а другая с несколькими узлами, у первой будет больше вероятность более слабой производительности.

Я видел обсуждение по net, где приведены некоторые тривиальные критерии [см. здесь ]. Тем не менее, я хотел бы услышать наблюдения уровня производства, если у вас есть некоторые.

Спасибо за любые комментарии.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...