Пример классификации объединенных изображений Tensorflow #Epochs имеет большое влияние. Модель переоснащена? - PullRequest
1 голос
/ 28 мая 2020

Я пытался охарактеризовать процесс обучения (точность и потери) в учебнике по записной книжке Федеративное обучение для классификации изображений с помощью TF Federated. * 1001 эпоха гиперпараметра. Смена эпох с 5, 10, 20 и c. Но я также вижу значительное повышение точности тренировок. Я подозреваю, что происходит переобучение, хотя затем я оцениваю, что точность набора тестов все еще высока.

Интересно, что происходит. ?

Насколько я понимаю, параметр эпохи управляет числом опор вперед / назад для каждого клиента за раунд обучения. Это верно ? Итак, ie 10 раундов обучения на 10 клиентах с 10 эпохами составят 10 эпох на 10 клиентов на 10 раундов. Поймите, что требуется более широкий круг клиентов и c, но я ожидал увидеть меньшую точность на тестовой выборке.

Что я могу сделать, чтобы узнать, что происходит? Могу ли я использовать оценочную проверку с чем-то вроде кривых обучения, чтобы увидеть, происходит ли переоснащение?

test_metrics = evaluation(state.model, federated_test_data) Кажется, что дает только одну точку данных, как я могу получить индивидуальную точность теста для каждого проверенного примера теста ?

1 Ответ

0 голосов
/ 29 мая 2020

Увеличение количества клиентских эпох действительно может увеличить скорость конвергенции за раунд; но вы абсолютно правы в том, что существует риск переобучения.

В алгоритме федеративного усреднения количество клиентских эпох определяет количество «последовательного прогресса» (или обучения), которое каждый клиент делает перед обновлением глобального модель. Чем больше эпох, тем больше локальный прогресс в каждом раунде, что может проявляться в гораздо более высокой скорости сходимости за раунд. Однако сопоставление этого показателя с количеством примеров, наблюдаемых на всех клиентах, может вместо этого показать более схожую скорость сходимости. * IID каждый клиентский набор данных. Если каждый набор клиентских данных имеет то же распределение, что и глобальное распределение данных, можно использовать те же методы, которые используются для нефедеративной оптимизации. Чем менее похож каждый набор клиентских данных на «глобальный» набор данных, тем больше вероятность «дрейфа» (клиенты сходятся к различным оптимальным точкам) при использовании большого количества клиентских эпох во время последующих раундов. Обучение точность может все еще быть высокой в ​​этой настройке, поскольку каждый клиент хорошо подстраивается под свои собственные локальные данные во время локального обучения. Однако точность тест вряд ли улучшится, так как среднее значение глобальной модели, вероятно, будет очень маленьким (различные локальные оптимальные точки клиента компенсируют друг друга). Praneeth et. al обсуждает это.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...