как мне преобразовать данные моего изображения в формат, похожий на данные fashion-MNIST - PullRequest
0 голосов
/ 17 июня 2019

Я новичок в машинном обучении, поэтому, пожалуйста, ответьте на мой вопрос новичка. Я пытаюсь обучить модель распознавать бентические фораминиферы на основе их подробной таксономии ... вот пример того, как фораминиферы выглядят enter image description here enter image description here Я добился успеха в этом, просто загрузив мои данные с помощью flow_images_from_directory (). Тем не менее, я не знаю, как исследовать структуру объекта, обычно генерируемого flow_images_from_directory. Я хотел бы отформатировать мой набор данных, аналогичный структуре данных Fashion MNIST. Так что это легко для нас модификация кода ниже. У меня есть некоторый опыт работы с магическим пакетом

dataset_fashion_mnist()
c(train_images, train_labels) %<-% fashion_mnist$train
c(test_images, test_labels) %<-% fashion_mnist$test

так что у меня есть что-то вроде набора, который облегчит мне понимание, особенно части маркировки. Также, если возможно, я хочу иметь возможность добавлять другую информацию из файла CSV в набор данных. Мои данные уже расположены в папках и подпапках следующим образом

data/
    train/
        ammonia/ ### 102 pictures
            ammonia001.tif
            ammonia002.tif
            ...
        elphidium/ ### 1024 pictures
            elphidium001.jpg
            elphidium002.jpg
            ...
    test/
        ammonia/ ### 16 pictures
           ammonia001.jpg
           ammonia002.jpg
            ...
       elphidium/ ### 6 pictures
           elphidium.jpg
            elphidium.jpg
            ...

Любая помощь или руководство по материалам будут высоко оценены.

1 Ответ

0 голосов
/ 17 июня 2019

Я опишу шаги, которые вы пройдете на высоком уровне.

  1. Предполагая, что у вас теперь есть набор для обучения и тестирования, и все ваши классы разумно сбалансированы
  2. загрузите ваши изображения и извлеките значения пикселей, нормализуйте значения так, чтобы они были между 0 и 1
  3. если изображения имеют разные размеры, вы должны дополнить их, чтобы они все были одинакового размера
  4. если вы не используете метод, требующий 2D-структуры, такой как CNN, вам также следует сгладить значения пикселей
  5. Свяжите свои изображения (в пиксельной форме) с метками классов
  6. Теперь у вас есть набор изображений фиксированного размера в пиксельной форме со связанными с ними метками классов. Затем вы можете указать это в любой модели, которую вы используете

Надеюсь, это поможет, дайте мне знать, если вас смущает какая-то часть

Примечание: по вашему образцу похоже, что ваш набор данных сильно искажен - много примеров эльфидия, но не много примеров аммиака. Это, вероятно, приведет к проблемам позже. В общем, вам нужно сбалансированное количество примеров между вашими классами.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...