Многоклассовая классификация глубокого обучения, какая из них должна быть одинаковой, количество экземпляров или количество изображений? - PullRequest
0 голосов
/ 17 апреля 2020

Я тренирую модель с Маской R-CNN, которая имеет 2 класса. Транспортные средства и дороги. У меня есть вопрос о подготовке набора данных. Какой из них лучше получить более высокую точность?

>>> 1 - Having the same number of instance in the whole dataset like:
Car Image: 50 
Total Cars: 500 (each car image has 10 cars)
Road Image: 500 
Total Roads: 500 (each road images has 1 road)
>>> In here the count of roads and cars are equal.

>>> 2 - Having the same number of image in the whole dataset like:
Car Image: 500
Total Cars: 10000 (each car image has 20 cars)
Road Image: 500
Total Roads: 700 (each road images has 1-2 road)
>>> In here the image count of roads and cars are equal.

Какой вариант лучше получить более высокую точность? Спасибо за ваше время.

1 Ответ

1 голос
/ 17 апреля 2020

Сети классификации и маски будут работать только для региональных предложений, связанных с количеством объектов, поэтому вам следует сосредоточиться в основном на количестве автомобилей и дорог. Но вы также должны использовать набор данных как можно большего размера. Если у вас достаточно данных и сеть с большими размерами, несбалансированный набор данных не должен быть проблемой, если у вас нет редкого класса.

Сначала попробуйте использовать весь набор данных, и если у вас есть проблемы с распознаванием дорог, взгляните на это обсуждение о том, как работать с несбалансированным набором данных: https://datascience.stackexchange.com/questions/38796/unbalanced-training-data-for-different-classes/38815#38815

...