Question

У меня проблема с наукой о данных, в которой около 70 тыс. Изображений уже помечены в 20 различных категориях. Некоторые категории имеют много изображений, в то время как другие имеют меньше изображений. Это, в свою очередь, приводит к несбалансированному набору данных и плохим результатам (в настоящее время с точностью 68%). После некоторых исследований я обнаружил, что мне нужно сделать выборку изображений (Image mining?) Вместо того, чтобы выбирать все изображения. Одним из таких подходов может быть стратифицированная выборка. Вопрос в том, как выбрать изображения для оптимизации обучения модели? Любой инструмент командной строки или открытый исходный код, который я мог бы использовать на изображениях 70k?

Prashant Gupta · Answer 1 · 03 мая 2018

У вас несбалансированные данные, поэтому для решения этой проблемы вы можете просто использовать библиотеку под названием Несбалансированное обучение Эта библиотека изначально была предназначена для реализации SMOTE, но позже также реализована с использованием методов выборки и переборки. Он также совместим с Scikit-Learn.

Использование этого подхода приведет к повторной выборке данных таким образом, чтобы у каждого класса были примерно одинаковые экземпляры.

Второй вариант: Вы можете просто выбрать одинаковое количество изображений для каждого класса и сформировать тренировочные данные. Это может не повысить вашу точность из-за отсутствия надлежащих тестовых данных, но, несомненно, ваша модель станет более надежной и обобщенной.

Стратифицированная выборка на изображениях

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Стратифицированная выборка на изображениях

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы