Как преобразовать и организовать RGB изображения разных размеров в файл CSV? - PullRequest
0 голосов
/ 06 февраля 2019

В моем наборе данных приблизительно 300k изображений, отформатированных .jpg.Но изображения имеют разные размеры.Я хочу преобразовать RGB-каналы всех изображений в файл .csv, но что мне следует записать в пустые ячейки?Это может быть символ «N», но я хочу организовать файл .csv с помощью numpy и DataFrame.Любая идея?(Набор данных предназначен для создания модели глубокого обучения)

1 Ответ

0 голосов
/ 06 февраля 2019

Это началось как комментарий, но получилось слишком длинным.Я думаю, что ответ достаточно зависит от того, что вы хотите, чтобы код делал, когда значение отсутствует.

В случае, если пиксель пуст, например, установка белого (255,255,255) или черного (0,0,0) может быть наименее инвазивной для модели глубокого обучения (вам необходимо изучитькак это работает).Я обнаружил, что растяжение / масштабирование изображения на самом деле было наилучшим способом.

Просто написать пустые записи (пустую строку или пробел между запятыми) в csv - вариант, см. этот ответ.Если вы используете numpy.genfromtxt для чтения данных, вы можете установить missing_values и filling_values по мере необходимости.Вы также можете составить точное значение, которое никогда не встречалось бы для пустых записей, таких как 99999 или DEADBEEF, чтобы идентифицировать их и писать код для анализа при необходимости.

Одно соображение заключается в том, что вам потребуется изменить формупосле чтения данных в том же размере изображения, поэтому убедитесь, что в любом выбранном формате одинаковое количество строк.

Кроме того, вам нужен один большой CSV-файл или множество меньших?Если вы храните много файлов, вы можете рассмотреть возможность добавления данных заголовка, чтобы указать фактический размер данных, поэтому вам нужно только сохранить изображение, затем skip_header в genfromtxt и дополнить его, если необходимо.

Наконец, вам было бы гораздо лучше использовать двоичный файл, поскольку у вас много данных, рассмотрите это , так как это займет меньше места и вы сможете быстрее читать / писать.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...