Question

Последние несколько дней я работаю в проекте машинного обучения.

У меня есть набор изображений (.jpg).У меня более 500 тыс. Изображений.

Наряду с этим у меня есть CSV-файл, содержащий названия изображений (каждое изображение имеет уникальное имя) и две метки (целевые значения).Две метки цели полностью различны, и между ними нет никакой связи.

Я буду использовать отдельные модели моделей для двух меток цели.

Мои решения

Конвертировать все в большой файл CSV.Как и набор данных MNIST в формате CSV.Проблема с этим подходом состоит в том, что изображения имеют большой размер (мне нужны большие изображения) и три канала (цветные изображения).Таким образом, размер CSV-файлов становится очень большим.
Используйте Keras ImageDataGenerator & flow_from_directory class.Как я упоминал ранее, у меня есть две метки (цель), поэтому необходимо создать две копии одного и того же набора данных (так как для flow_from_directory требуется определенная структура данных)

Теперь обе моиРешение работает, но есть определенные проблемы.

Мне интересно, есть ли другой способ импортировать набор данных.Так что я могу избежать проблем, упомянутых выше.

Я использую Keras, Pandas, Numpy и Sklearn для этого проекта.Я также могу использовать любую другую библиотеку.

Я не прилагаю никакого кода моих решений с этим вопросом.Пожалуйста, дайте мне знать, если это необходимо.

Спасибо Abhishek

WY Hsu · Answer 1 · 01 марта 2019

Вы упомянули Панд, но я не думаю, что это решит вашу проблему.

Почему бы вам не написать собственное решение?

Вы можете попробовать реализовать способ scikit-learn did.

Взять Распознавание рукописных цифр в качестве примера

Пример кода

# Author: Gael Varoquaux <gael dot varoquaux at normalesup dot org>
# License: BSD 3 clause

import matplotlib.pyplot as plt    
# Import datasets, classifiers and performance metrics
from sklearn import datasets, svm, metrics

# The digits dataset 
digits = datasets.load_digits() # <--- right here

images_and_labels = list(zip(digits.images, digits.target))
for index, (image, label) in enumerate(images_and_labels[:4]):
    plt.subplot(2, 4, index + 1)
    plt.axis('off')
    plt.imshow(image, cmap=plt.cm.gray_r, interpolation='nearest')
    plt.title('Training: %i' % label)

n_samples = len(digits.images)
data = digits.images.reshape((n_samples, -1))

classifier = svm.SVC(gamma=0.001)

classifier.fit(data[:n_samples // 2], digits.target[:n_samples // 2])

expected = digits.target[n_samples // 2:]
predicted = classifier.predict(data[n_samples // 2:])

print("Classification report for classifier %s:\n%s\n"
      % (classifier, metrics.classification_report(expected, predicted)))
print("Confusion matrix:\n%s" % metrics.confusion_matrix(expected, predicted))

images_and_predictions = list(zip(digits.images[n_samples // 2:], predicted))
for index, (image, prediction) in enumerate(images_and_predictions[:4]):
    plt.subplot(2, 4, index + 5)
    plt.axis('off')
    plt.imshow(image, cmap=plt.cm.gray_r, interpolation='nearest')
    plt.title('Prediction: %i' % prediction)

plt.show()

Исходный код

scikit-learn построить модуль с именем dataset только для загрузки различных наборов данных, таких как MNIST (как изображения, так и метки).

Вы также получите удовольствие от чтенияисходный код dataset.load_digits ()

Это короткий и аккуратный .Надеюсь, вы сможете найти лучшее решение.

Правильный способ импорта набора данных изображений (.jpg) Keras, Pandas

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пример кода

Исходный код

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Правильный способ импорта набора данных изображений (.jpg) Keras, Pandas

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пример кода

Исходный код

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов