Я думаю, что в этих областях для федеративного обучения все еще ведется много открытых исследований.
Страница 6 из https://arxiv.org/abs/1912.04977 описывает перекрестное устройство и a cross-silo настройка для федеративного обучения.
В настройках кросс-устройств популяция обычно очень большая (сотни тысяч или миллионы), и участники обычно видны только один раз за все тренировочный процесс. В этой настройке https://arxiv.org/abs/2003.00295 демонстрирует, что гиперпараметры, такие как скорость обучения клиента, играют огромную роль в определении скорости сходимости модели и окончательной точности модели. Чтобы продемонстрировать это открытие, мы сначала выполнили поиск по большой крупной сетке, чтобы определить перспективное пространство гиперпараметров, а затем запустили более мелкие сетки в перспективных регионах. Однако это может быть дорогостоящим в зависимости от вычислительных ресурсов, доступных для моделирования, процесс обучения должен быть выполнен до конца, чтобы понять эти эффекты.
Возможно, федеративное обучение можно рассматривать как очень большой мини-пакетный SGD. На самом деле алгоритм FedSGD в https://arxiv.org/abs/1602.05629 именно такой. В этом режиме повторное использование теории из централизованного обучения модели может быть плодотворным.
Наконец, https://arxiv.org/abs/1902.01046 описывает систему, используемую в Google для федеративного обучения, и имеет небольшое обсуждение гипер -разведка параметров.