Как избежать смещения и переобученности в обучающих данных при сборе изображений с видео: какова подходящая стратегия сбора данных? - PullRequest
0 голосов
/ 22 февраля 2020

Мой коллега хвастался мне, что какой-то инструмент с открытым исходным кодом позволил ему аннотировать видео, поэтому он собирал тысячи изображений из одного видео для использования в обучении нейронным системам - net. Это показалось мне неосведомленным.

Я нашел научные статьи c, в которых утверждается, что вам нужно примерно 50 000 изображений на класс, чтобы, например, получить точность 95%.

У меня такой вопрос: допустим, я создаю CNN, чтобы идентифицировать классы, и собираюсь провести обучение переносу и использовать некоторую существующую архитектуру в качестве отправной точки. Сколько нужно изображений из разных видео? ? Давайте назовем это обнаружением объекта, поэтому, если на фоне какого-либо изображения есть несколько плоскостей, я хочу правильно их классифицировать.

В качестве примера, скажем, я хочу определить типы самолетов, взлетающих с ВПП. Самолеты уже идентифицированы в большинстве моделей с предварительной подготовкой, но теперь я хочу NN, который может идентифицировать тип, 737, например,

Что я не понимаю, так это то, что будет хорошим тренировочным набором, если я получу его от видео? Я знаю, ответ - ты получаешь достаточно, пока не будет достигнута нужная точность. Но что, если бы у меня было ограниченное время и ресурсы для получения видео? Сколько видео и сколько обстоятельств мне понадобится? Как мне вообще начать отвечать на это?

Могу ли я использовать один аэропорт или мне нужно много? Даже если бы я мог взять тысячи изображений из одного видео, разве это не переосмысление и добавление смещения? Что было бы хорошей стратегией?

...