Тренировка с использованием триплетной потери: Nan в тензорном потоке суммарной гистограммы - PullRequest
0 голосов
/ 30 января 2020

Я пытаюсь обучить модель CNN, используя потерю триплета. У меня есть изображения 8 классов (продуктов), и каждый класс имеет около 100 изображений каждый Архитектура сети выглядит следующим образом:

input image   ->          conv1   ->   conv2    ->   conv3   ->   conv4   -> conv5 -> 28D embedding
 182x182     filters       7x7         5x5            3x3          1x1        1x1
             num_outputs    32          64            128          256         28
             activation     Relu       Relu           Relu         Relu       Relu

Следовательно, сеть дает 28-D вложение. Однако во время обучения он выдает мне следующую ошибку на случайном шаге итерации:

tensorflow.python.framework.errors_impl.InvalidArgumentError: Nan in summary histogram for: conv2/weights_1

Я поиграл с некоторыми гиперпараметрами, но все же не повезло, меняется только шаг итерации, на котором он выдает ошибку , Ниже приведены гиперпараметры, которые я пробую:

batch size : varied if from 2 to 12
learning rate : 0.001 - 0.002
momentum: 0.9 (since batch size is small)
training iter: 2000 (it is never reaching that, before only throws an error)

Любые входные данные будут действительно полезны.

...