Баланс двух наборов данных для обучения - PullRequest
2 голосов
/ 31 октября 2019

В настоящее время я работаю над проблемой классификации по возрасту.

Предположим, что у меня есть 2 набора данных, например, A и B. Набор данных A содержит приблизительно 160 000 изображений, а набор B содержит только 5 000 изображений.

  • Набор поездов A загружениз интернета. Каждое изображение отлично маркируется с определенным возрастным диапазоном. Например, всего 7 возрастных групп.
  • Набор B помечается вручную из реального сценария (видеокамера). Множество шумных картинок и небольшого размера изображения. (45x45)
  • Тестовый набор C аналогичен обучающему набору B (реальный случай) (это частный набор)

Я применил методику трансферного обучения, но у меня низкая производительностьнабор B. Я хочу иметь хорошую производительность на множестве B, и поэтому я могу достичь сопоставимой производительности на множестве C. * Примените тонкую настройку на множестве A для 10 эпох (потому что переоснащение происходит после 10 эпох). Я использовал архитектуру VGG16 (веса, инициализированные из ImageNet) и изменил последние полностью подключенные слои из 1000-> 7 классов.

Окончательно оценим на множестве B

Результаты: Почти предсказанияна 20-29 и 30-39 лет.

Полагаю, существует несбалансированный набор данных для тонкой настройки.

Мои настоящие вопросы:

  1. Как создать сбалансированный набор данных, который мы можем использовать в качестве преимущества набора B?
  2. Процесс, на котором я тренировался, правильный или нет?

Обратите внимание: изображения из набора B имеют более низкое качество, чем набор A.

Как улучшить производительность модели? Спасибо за ваше предложение. Это сравнение 2 набора A и B

...