Различная случайная инициализация веса, приводящая к различным характеристикам - PullRequest
0 голосов
/ 14 ноября 2018

Я тренирую 3D U-Net на наборе данных EM мозга.Цель состоит в том, чтобы сегментировать нейроны в нем.Во время экспериментов, как я заметил, разная случайная инициализация сети приводит к разной производительности.Я оцениваю производительность, основываясь на среднем значении «Пересечение над объединением», и наблюдаю различия в 5%.

Я использую инициализацию ксавье с равномерным распределением и использую постоянную скорость обучения 1e-4.

Редактировать: я спрашиваю, как я могу избежать такого поведения?

1 Ответ

0 голосов
/ 14 ноября 2018

Как сказал Роберто, разные случайные инициализации всегда приводят к разным полученным весам. Это совершенно очевидно, так как начальное состояние ограничивает возможные траектории системы.

Если вы прочитаете статью, в которой вводится Xavier init , вы увидите, что хорошо известно, что случайный init имеет большое влияние init на конечную производительность (есть документ, который показал, что сотни тренировок работает со случайным init все в конечном итоге в разных локальных минимумов, но я не могу найти его прямо сейчас). Именно по этой причине мы используем эвристики, такие как Xavier init: они имеют тенденцию приводить к лучшим локальным минимумам, чем другие формы случайной инициализации.

Как правило, каждый выполняет несколько обучающих прогонов (например, 10) и выбирает лучшую архитектуру, в статьях иногда также сообщается среднее значение.

...