Высокоскоростная связь между экземплярами GCP - PullRequest
0 голосов
/ 08 июля 2019

Я пытаюсь получить совет о том, как лучше настроить вычислительный кластер в GCP для обучения ML.Задание, над которым я сейчас работаю, превысило возможности максимум 8 графических процессоров V100, которые я могу прикрепить к экземпляру GCP, поэтому я хотел бы запустить два экземпляра и распределенное задание для всех 16 графических процессоров.Моя кодовая база уже способна сделать это, мне просто нужно проработать детали правильной настройки сети VPC.Я много занимался поиском, но не могу найти в Google никакой информации, касающейся высокоскоростной связи между экземплярами.Чтобы этот кластер работал эффективно, мне нужно очень быстро синхронизировать градиенты между узлами.Для большинства локальных серверов HP HPC используется 100-гигабитный Ethernet или Infiniband.Предлагает ли GCP что-нибудь, что позволило бы достичь такого типа связи с низкой задержкой и высокой пропускной способностью между экземплярами?Заранее благодарю за любую помощь.

Редактировать:

Для пояснения, при запуске iperf3, я получаю около 200 ~ МБ / сек между экземплярами на внутренних IP-адресах.Эта скорость будет безумным узким местом.С современными серверами, подключенными к Infiniband (как правило, используются для высокопроизводительных вычислений и кластеров глубокого обучения), вы будете рассматривать скорость выше 20 ГБ / с.200 МБ / с приведут к отрицательному масштабированию производительности (в огромных количествах) между узлами.Текущее узкое место - это просто скорость p2p между графическими процессорами на одной машине (в случае V100 они используют настройку NVSwitch, аналогичную dgx-2 с SXM2, так что она быстро светится).Любая сеть между узлами должна конкурировать с этой скоростью.Я так понимаю, GCP не предлагает более быстрых сетей для рабочих нагрузок типа HPC?

Ответы [ 2 ]

0 голосов
/ 10 июля 2019

Когда вы используете сеть Premium Tier , ваш трафик будет использовать высокопроизводительную сеть Google. В этом случае вам просто нужно убедиться, что ваши машины находятся в той же зоне, что соответствует приведенным выше требованиям к скорости.

0 голосов
/ 08 июля 2019

Если вы видите что-то кроме сверхбыстрой работы в сети, я бы позаботился о том, чтобы обе машины находились в одном и том же VPC в одном регионе и зоне.Убедитесь, что правила брандмауэра между компьютерами позволяют пропускать трафик.

...