Мой коллега хвастался мне, что какой-то инструмент с открытым исходным кодом позволил ему аннотировать видео, поэтому он собирал тысячи изображений из одного видео для использования в обучении нейронным системам - net. Это показалось мне неосведомленным.
Я нашел научные статьи c, в которых утверждается, что вам нужно примерно 50 000 изображений на класс, чтобы, например, получить точность 95%.
У меня такой вопрос: допустим, я создаю CNN, чтобы идентифицировать классы, и собираюсь провести обучение переносу и использовать некоторую существующую архитектуру в качестве отправной точки. Сколько нужно изображений из разных видео? ? Давайте назовем это обнаружением объекта, поэтому, если на фоне какого-либо изображения есть несколько плоскостей, я хочу правильно их классифицировать.
В качестве примера, скажем, я хочу определить типы самолетов, взлетающих с ВПП. Самолеты уже идентифицированы в большинстве моделей с предварительной подготовкой, но теперь я хочу NN, который может идентифицировать тип, 737, например,
Что я не понимаю, так это то, что будет хорошим тренировочным набором, если я получу его от видео? Я знаю, ответ - ты получаешь достаточно, пока не будет достигнута нужная точность. Но что, если бы у меня было ограниченное время и ресурсы для получения видео? Сколько видео и сколько обстоятельств мне понадобится? Как мне вообще начать отвечать на это?
Могу ли я использовать один аэропорт или мне нужно много? Даже если бы я мог взять тысячи изображений из одного видео, разве это не переосмысление и добавление смещения? Что было бы хорошей стратегией?