Стратифицированная выборка на изображениях - PullRequest
0 голосов
/ 01 мая 2018

У меня проблема с наукой о данных, в которой около 70 тыс. Изображений уже помечены в 20 различных категориях. Некоторые категории имеют много изображений, в то время как другие имеют меньше изображений. Это, в свою очередь, приводит к несбалансированному набору данных и плохим результатам (в настоящее время с точностью 68%). После некоторых исследований я обнаружил, что мне нужно сделать выборку изображений (Image mining?) Вместо того, чтобы выбирать все изображения. Одним из таких подходов может быть стратифицированная выборка. Вопрос в том, как выбрать изображения для оптимизации обучения модели? Любой инструмент командной строки или открытый исходный код, который я мог бы использовать на изображениях 70k?

1 Ответ

0 голосов
/ 03 мая 2018

У вас несбалансированные данные, поэтому для решения этой проблемы вы можете просто использовать библиотеку под названием Несбалансированное обучение Эта библиотека изначально была предназначена для реализации SMOTE, но позже также реализована с использованием методов выборки и переборки. Он также совместим с Scikit-Learn.

Использование этого подхода приведет к повторной выборке данных таким образом, чтобы у каждого класса были примерно одинаковые экземпляры.

Второй вариант: Вы можете просто выбрать одинаковое количество изображений для каждого класса и сформировать тренировочные данные. Это может не повысить вашу точность из-за отсутствия надлежащих тестовых данных, но, несомненно, ваша модель станет более надежной и обобщенной.

...