Советы по прекращению обучения сети resnet50 (mxnet на aws) - PullRequest
0 голосов
/ 24 ноября 2018

У меня есть пользовательский набор данных приблизительно из 20 тыс. Изображений (10% используется для проверки).У меня примерно 1/3 в классе меток 0, 1/3 в классе меток 1 и 1/3, у которых нет класса 0, или 1 объектов с меткой -1.

Я пробежал примерно 400эпох, валидация MAP за последние 40 эпох увеличилась с 0,817 до 0,831, а кросс-энтропийная потеря тренировок с 0,377-> 0,356

the last epoch had validation mAP <score>=(0.83138943309)
train cross_entropy <loss>=(0.356147519184)
train smooth_l1 <loss>=(0.150637295831)
  1. Потеря тренировок все еще кажется разумнойуменьшить сумму, но у меня нет опыта работы с реснетом (на yolov3 этот набор данных быстро ушел ниже. 1)

  2. Мой подход не имеет 1/3 тренировочных образов, неЕсть ли у кого-нибудь разумный подарок?Когда я занимался yolov3, это помогло сети избежать ложных срабатываний.

  3. Есть ли эмпирическое правило, которое помогает мне оценить, сколько эпох подходит на основе количества классов / изображений?

  4. Его стоимостьмне нужно около 100 баксов на aws, чтобы добраться до этой точки, я не уверен, что ему нужно еще 100 баксов или 1000 баксов, чтобы добраться до оптимальной мАП - при нынешнем темпе, кажется, 1 час дает улучшение примерно на 1% - и яЯ ожидаю, что это замедлится.

  5. Есть ли другие метрики, на которые я должен обратить внимание?(если так, как я могу их экспортировать)?

  6. есть ли какие-либо гиперпараметры, которые я должен изменить, и возобновить обучение?

Мои гиперпараметры:

base_network='resnet-50',
num_classes=2,
mini_batch_size=32,
epochs=200,
learning_rate=0.001,
lr_scheduler_step='3,6',
lr_scheduler_factor=0.1,
optimizer='sgd',
momentum=0.9,
weight_decay=0.0005,
overlap_threshold=0.5,
nms_threshold=0.45,
image_shape=416,
label_width=480,
num_training_samples=19732)

спасибоДжон

1 Ответ

0 голосов
/ 16 января 2019

Сложно сказать заранее для пользовательского набора данных, потому что вы имеете дело со многими различными переменными.Отслеживание валидации MAP - это, конечно, хороший способ сообщить вам, когда следует остановиться.Например, mAP перестает увеличиваться , или mAP выравнивается.

Итак, я бы порекомендовал взглянуть на других, которые использовали ту же архитектуру и аналогичные параметры, чтобы получить представление.Вы упомянули пользовательский набор данных, но для ImageNet DAWNBench публикует эту информацию.Например, на этой странице перечислены гиперпараметры для каждой эпохи, чтобы вы могли изучить связанные с ними установки.

Я также настоятельно рекомендую вам посмотреть на тонкую настройку предварительно обученных моделей, чтобы сэкономить деньги и вычисления.,См. Раздел Vision здесь и здесь и https://github.com/apache/incubator-mxnet/issues/4616 для получения информации о тонкой настройке слоев FC.

...