Балансировщики нагрузки обычно обрабатывают узлы, идущие вниз. Даже при управлении внешней службой узлы могут внезапно аварийно завершить работу, и балансировщики нагрузки хотят избежать этих узлов. Так что все реализации балансировки нагрузки для gRPC, о которых я знаю, позволяют избежать сбоя вызовов, когда сервер не работает.
Pick First (по умолчанию), перебирает адреса, пока не сработает. Круглый Робин только круглые робины над рабочими соединениями. То, что вы описываете, должно работать нормально.
Отмечу, что у вашего подхода есть один недостаток: вы не можете менять серверы во время работы процесса. Удаление сломанных бэкэндов - это одно, а добавление новых рабочих бекендов - другое. Если ваша нагрузка слишком высока, вы не сможете решить проблему, добавив больше работников, потому что даже если вы добавите больше работников, ваши клиенты не будут к ним подключаться.