Я пытаюсь внедрить YOLO v3 в Tensorflow-Keras с нуля с целью обучения моей собственной модели на пользовательском наборе данных.Под этим я подразумеваю без использования предварительно обученных весов .Я просмотрел все три статьи для YOLOv1, YOLOv2 (YOLO9000) и YOLOv3 и обнаружил, что хотя Darknet53 используется в качестве экстрактора возможностей для YOLOv3, я не могу указать на полную архитектуру, которая расширяется после этого - слои «обнаружения»говорили о здесь .После большого прочтения постов в блоге Medium, kdnuggets и других подобных сайтов у меня возникло несколько важных вопросов:
- Я пропустил полную архитектуру уровней обнаружения (которые расширяются послеDarknet53, используемый для извлечения признаков) где-нибудь на бумаге YOLOv3?
- Автор, похоже, использует разные размеры изображений на разных этапах обучения.Делает ли сеть автоматически это увеличение / уменьшение изображений?
- Для предварительной обработки изображений действительно достаточно просто изменить их размер и затем нормализовать (разделив на 255)?
Пожалуйста, будьте любезны, чтобы указать мне правильное направление.Я ценю помощь!