проблема чтения изображений из набора данных mjsynth - PullRequest
0 голосов
/ 30 марта 2020

В последнее время я пытаюсь обучить сети распознавания текста. Я попытался начать обучение, подав в набор mjsynth набор данных . Однако в наборе данных, похоже, есть пустые изображения. Таким образом, во время обучения, если я напрямую передаю данные в сеть, во время чтения изображения генерируется ошибка, и из-за этой ошибки обучение прекращается. Кто-нибудь знает список пустых изображений в наборе данных mjsynth. Так что я могу удалить эти пустые изображения из набора данных.

1 Ответ

0 голосов
/ 04 апреля 2020

Попробовав много вещей, я закончил довольно долгий эксперимент, чтобы прочитать почти 9 миллионов изображений набора данных mjsynth и собрать изображения, которые были обрезаны или пусты. Я обнаружил, что есть 12 искаженных изображений, которые останавливают обучение модели, когда данные mjsynth напрямую передаются в модель для обучения без каких-либо изменений. Вот код и найдены недействительные изображения. Таким образом, вы можете удалить эти изображения из набора данных mjsynth перед началом обучения модели.

import os
import cv2
import numpy as np
rootdir = './mjsynth/mnt/ramdisk/max/90kDICT32px'

invalid_images = []
for subdir, dirs, files in os.walk(rootdir):
    for file in files:
        im_path = os.path.join(subdir, file)
        im = cv2.imread(im_path)
        if type(im) != np.ndarray:
            invalid_images.append(im_path)

print('invalid_images = {}'.format(invalid_images ))

# output
invalid_images = 
['./mjsynth/mnt/ramdisk/max/90kDICT32px\\1863/4/223_Diligently_21672.jpg',
'./mjsynth/mnt/ramdisk/max/90kDICT32px\\913/4/231_randoms_62372.jpg',
'./mjsynth/mnt/ramdisk/max/90kDICT32px\\2025/2/364_SNORTERS_72304.jpg',
'./mjsynth/mnt/ramdisk/max/90kDICT32px\\495/6/81_MIDYEAR_48332.jpg',
'./mjsynth/mnt/ramdisk/max/90kDICT32px\\869/4/234_TRIASSIC_80582.jpg',
'./mjsynth/mnt/ramdisk/max/90kDICT32px\\173/2/358_BURROWING_10395.jpg',
'./mjsynth/mnt/ramdisk/max/90kDICT32px\\2013/2/370_refract_63890.jpg',
'./mjsynth/mnt/ramdisk/max/90kDICT32px\\368/4/232_friar_30876.jpg',
'./mjsynth/mnt/ramdisk/max/90kDICT32px\\1881/4/225_Marbling_46673.jpg',
'./mjsynth/mnt/ramdisk/max/90kDICT32px\\1817/2/363_actuating_904.jpg',
'./mjsynth/mnt/ramdisk/max/90kDICT32px\\275/6/96_hackle_34465.jpg',
'./mjsynth/mnt/ramdisk/max/90kDICT32px\\2069/4/192_whittier_86389.jpg']
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...