У меня вопрос по поводу сверточных автоэнкодеров, и я надеюсь, что кто-нибудь мне поможет.
Мои входные изображения имеют 3 канала и размер 256x256. С этими изображениями я натренировал сверточный автоэнкодер с несколькими сверточными слоями (активация relu) (всего около 3000). После каждого конвоя следуют BatchNormalization и Maxpooling.
В кодировщике изображения сжимаются до размера 1x1x4, и реконструкции на выходе выглядят почти идеально.
Теперь я построил карты активации для каждого сверточного слоя и заметил, что карты объектов последних двух сверточных слоев просто черные.
Они не совсем равны нулю, но имеют очень маленькие значения.
Теперь у меня вопрос: можно ли сжимать изображение настолько сильно и почему мои карты характеристик черные?
Я бы хотел использовать авто-кодер для извлечения объектов, но кажется, что извлекать объекты из слоя с узким местом, если активации настолько малы, бессмысленно.
Заранее спасибо за любые советы: -)
Приветствия
Michael
Привет и спасибо за быстрый ответ!
Вот как выглядит моя сеть:
conv1 = Conv2D(256, (3, 3), activation='relu', padding='same')(input_img)
conv1 = BatchNormalization()(conv1)
conv1 = Conv2D(256, (3, 3), activation='relu', padding='same')(conv1)
conv1 = BatchNormalization()(conv1)
pool1 = MaxPooling2D(pool_size=(2, 2))(conv1)
conv2 = Conv2D(224, (3, 3), activation='relu', padding='same')(pool1)
conv2 = BatchNormalization()(conv2)
conv2 = Conv2D(224, (3, 3), activation='relu', padding='same')(conv2)
conv2 = BatchNormalization()(conv2)
pool2 = MaxPooling2D(pool_size=(2, 2))(conv2)
conv3 = Conv2D(192, (3, 3), activation='relu', padding='same')(pool2)
conv3 = BatchNormalization()(conv3)
conv3 = Conv2D(192, (3, 3), activation='relu', padding='same')(conv3)
conv3 = BatchNormalization()(conv3)
pool3 = MaxPooling2D(pool_size=(2, 2))(conv3)
conv4 = Conv2D(128, (3, 3), activation='relu', padding='same')(pool3)
conv4 = BatchNormalization()(conv4)
conv4 = Conv2D(128, (3, 3), activation='relu', padding='same')(conv4)
conv4 = BatchNormalization()(conv4)
pool4 = MaxPooling2D(pool_size=(2, 2))(conv4)#14 x 14 x 32
conv5 = Conv2D(96, (3, 3), activation='relu', padding='same')(pool4)
conv5 = BatchNormalization()(conv5)
conv5 = Conv2D(96, (3, 3), activation='relu', padding='same')(conv5)
conv5 = BatchNormalization()(conv5)
pool5 = MaxPooling2D(pool_size=(2, 2))(conv5)
conv6 = Conv2D(64, (3, 3), activation='relu', padding='same')(pool5)
conv6 = BatchNormalization()(conv6)
conv6 = Conv2D(64, (3, 3), activation='relu', padding='same')(conv6)
conv6 = BatchNormalization()(conv6)
pool6 = MaxPooling2D(pool_size=(2, 2))(conv6)
conv7 = Conv2D(32, (3, 3), activation='relu', padding='same')(pool6)
conv7 = BatchNormalization()(conv7)
conv7 = Conv2D(32, (3, 3), activation='relu', padding='same')(conv7)
conv7 = BatchNormalization()(conv7)
pool7 = MaxPooling2D(pool_size=(2, 2))(conv7)
conv8 = Conv2D(16, (3, 3), activation='relu', padding='same')(pool7)
conv8 = BatchNormalization()(conv8)
conv8 = Conv2D(16, (3, 3), activation='relu', padding='same')(conv8)
conv8 = BatchNormalization()(conv8)
pool8 = MaxPooling2D(pool_size=(2, 2))(conv8)
conv9 = Conv2D(8, (3, 3), activation='relu', padding='same')(pool8)
conv9 = BatchNormalization()(conv9)
conv9 = Conv2D(8, (3, 3), activation='relu', padding='same')(conv9)
conv9 = BatchNormalization()(conv9)
conv10 = Conv2D(4, (3, 3), activation='relu', padding='same')(conv9)
conv10 = BatchNormalization()(conv10)
conv10 = Conv2D(4, (3, 3), activation='relu', padding='same', name='encoder')(conv10)
conv10 = BatchNormalization()(conv10)
#decoder
up11 = concatenate([conv10, conv9],axis=3)
conv11 = Conv2D(8, (3, 3), activation='relu', padding='same')(up11)
conv11 = BatchNormalization()(conv11)
conv11 = Conv2D(8, (3, 3), activation='relu', padding='same')(conv11)
conv11 = BatchNormalization()(conv11)
up12 = UpSampling2D((2, 2))(conv9) # 14 x 14 x 128
up12 = concatenate([up12,conv8], axis = 3)
conv12 = Conv2D(16, (3, 3), activation='relu', padding='same')(up12)
conv12 = BatchNormalization()(conv12)
conv12 = Conv2D(16, (3, 3), activation='relu', padding='same')(conv12)
up13 = UpSampling2D((2, 2))(conv12) # 14 x 14 x 128
up13 = concatenate([up13,conv7], axis = 3)
conv13 = Conv2D(32, (3, 3), activation='relu', padding='same')(up13)
conv13 = BatchNormalization()(conv13)
conv13 = Conv2D(32, (3, 3), activation='relu', padding='same')(conv13)
up14 = UpSampling2D((2, 2))(conv13)
up14 = concatenate([up14, conv6], axis=3)
conv14 = Conv2D(64, (3, 3), activation='relu', padding='same')(up14)
conv14 = BatchNormalization()(conv14)
conv14 = Conv2D(64, (3, 3), activation='relu', padding='same')(conv14)
up15 = UpSampling2D((2, 2))(conv14)
up15 = concatenate([up15, conv5], axis=3)
conv15 = Conv2D(96, (3, 3), activation='relu', padding='same')(up15)
conv15 = BatchNormalization()(conv15)
conv15 = Conv2D(96, (3, 3), activation='relu', padding='same')(conv15)
conv15 = BatchNormalization()(conv15)
up16 = UpSampling2D((2, 2))(conv15)
up16 = concatenate([up16, conv4], axis=3)
conv16 = Conv2D(128, (3, 3), activation='relu', padding='same')(up16)
conv16 = BatchNormalization()(conv16)
conv16 = Conv2D(128, (3, 3), activation='relu', padding='same')(conv16)
conv16 = BatchNormalization()(conv16)
up17 = UpSampling2D((2, 2))(conv16)
up17 = concatenate([up17, conv3], axis=3)
conv17 = Conv2D(192, (3, 3), activation='relu', padding='same')(up17)
conv17 = BatchNormalization()(conv17)
conv17 = Conv2D(192, (3, 3), activation='relu', padding='same')(conv17)
conv17 = BatchNormalization()(conv17)
up18 = UpSampling2D((2, 2))(conv17)
up18 = concatenate([up18, conv2], axis=3)
conv18 = Conv2D(224, (3, 3), activation='relu', padding='same')(up18)
conv18 = BatchNormalization()(conv18)
conv18 = Conv2D(224, (3, 3), activation='relu', padding='same')(conv18)
conv18 = BatchNormalization()(conv18)
up19 = UpSampling2D((2, 2))(conv18)
up19 = concatenate([up19, conv1], axis=3)
conv19 = Conv2D(256, (3, 3), activation='relu', padding='same')(up19)
conv19 = BatchNormalization()(conv19)
conv19 = Conv2D(256, (3, 3), activation='relu', padding='same')(conv19)
conv19 = BatchNormalization()(conv19)
decoded = Conv2D(channels, (3, 3), activation='sigmoid', padding='same')(conv19)
model = Model(input_img, decoded)
возвращаемая модель
Я извлекаю элементы на последнем сверточном слое в части кодера (convv10), который имеет название «кодировщик».
Я не использую регуляризацию L1 / L2.
Все функции (пиксели) нормализованы в диапазоне 0-1.
Приветствия
Michael
Редактировать: Дополнительный комментарий: Вот как выглядят карты объектов из слоя кодировщика при их построении:
Карты объектов, извлеченные из слоя кодировщика
При наведении курсора на карты объектов я вижу, что 1-2 могут быть равны нулю, а остальные могут иметь значения пикселей 1,8 или 3,1.
Я не понимаю, почему они изображены полностью черными, но, полагаю, это зависит от диапазона значений других карт объектов?
-> Еще одно редактирование: только что проверил значения карт объектов, поступающих из первого сверточного слоя. Они в одном диапазоне. Относительно высокие значения активаций находятся в пределах 0,3 - 0,4 .... Это просто графическое представление matplotlib?
Хорошо, прежде всего извините за все редактирование и исправление.
Я только что объединил карты объектов слоя кодирования с numpy, и теперь это выглядит так:
Связанные карты возможностей
Похоже, что matplotlib нормализуется каким-то образом. Это выглядит лучше: -)
Но если я вернусь к своему вопросу:
Так что было бы разумно сжать изображение так же сильно, как я? Вы бы порекомендовали нормализацию L2 в дополнение к BatchNormalization?
Еще раз спасибо,
ура
Michael