Глядя на набор данных, я вижу, что большинство данных очень похожи (черно-белые изображения рентгенограмм грудной клетки) - пожалуйста, исправьте меня, если я ошибаюсь. Таким образом, кажется, что CNN изучает общие черты на большинстве изображений. Сеть не является достаточно глубокой / продвинутой, чтобы выделить отличительные шаблоны. В соответствии с учебным пособием, которое вы читаете, я не думаю, что сеть VGG-16 или 19 изучает отличительные шаблоны на изображениях.
Модель субтитров изображения будет столь же хороша, как и основная сеть CNN. Если у вас есть поле метки класса в ваших данных (например, поле указания / показа здесь ), вы можете фактически подтвердить эту гипотезу, обучив сеть предсказывать класс каждого изображения и, если производительность низкая Вы можете подтвердить это. Если у вас есть метка класса, попробуйте поэкспериментировать с кучей CNN и использовать ту, которая достигает максимальной точности классификации, в качестве экстрактора признаков.
Если у вас нет метки класса, я бы предложил попробовать некоторые более глубокие архитектуры CNN, такие как Inception или Re sNet, и посмотрите, улучшится ли производительность. Надеюсь, это было полезно!