CoreML -Balance Количество изображений во время обучения модели - PullRequest
0 голосов
/ 10 декабря 2018

Я использую CoreML для обучения моей собственной модели для животных.Чтение Apple Docs гласит:

Используйте не менее 10 изображений на этикетку для учебного набора, но чем больше, тем лучше.Кроме того, сбалансируйте количество изображений для каждой метки.Например, не используйте 10 изображений для Гепарда и 1000 изображений для Слона.

Я использую скрипт Python для загрузки до 1000 изображений на набор данных (1000медведи, 1000 гепардов, 1000 слонов и т. д.).Я замечаю, что иногда я получаю 400 изображений одного, 700 другого, 900 другого и т. Д.

animals
  -bears (402 pics)
  -cheetahs (810 pics)
  -elephants (420 pics)
  -lions (975 pics)
  -tigers (620 pics)
  -zebras (793)

Для загрузки изображений через терминал я набираю:

// python image_download_python2.py <query> <number of images>
python image_download_python2.py 'elephants' '1000'

Поскольку он возвращает некоторые наборы данных с изображениями 400, другие 700 и другие с 900 и т. Д., Это все равно будет считаться «сбалансированным», или мне нужно будет установить нижний предел 500 при запуске сценария python, чтобы все зависалооколо 500 изображений, несмотря ни на что?

python image_download_python2.py 'elephants' '500'

Я почти уверен, что всегда получу по крайней мере 400 изображений.

Имейте в виду, что документы говорят, что больше изображенийвсегда лучше

Используйте не менее 10 изображений на этикетку для обучающего набора, но больше всегда лучше.

Кстати, что происходит с моделью CoreML, покаобучение, когда наборы данных не сбалансированы, как в примере Apple с 10 гепардами и 1000 слонов?

...