Я пытаюсь обучить модель CNN, используя потерю триплета. У меня есть изображения 8 классов (продуктов), и каждый класс имеет около 100 изображений каждый Архитектура сети выглядит следующим образом:
input image -> conv1 -> conv2 -> conv3 -> conv4 -> conv5 -> 28D embedding
182x182 filters 7x7 5x5 3x3 1x1 1x1
num_outputs 32 64 128 256 28
activation Relu Relu Relu Relu Relu
Следовательно, сеть дает 28-D вложение. Однако во время обучения он выдает мне следующую ошибку на случайном шаге итерации:
tensorflow.python.framework.errors_impl.InvalidArgumentError: Nan in summary histogram for: conv2/weights_1
Я поиграл с некоторыми гиперпараметрами, но все же не повезло, меняется только шаг итерации, на котором он выдает ошибку , Ниже приведены гиперпараметры, которые я пробую:
batch size : varied if from 2 to 12
learning rate : 0.001 - 0.002
momentum: 0.9 (since batch size is small)
training iter: 2000 (it is never reaching that, before only throws an error)
Любые входные данные будут действительно полезны.