В настоящее время я работаю с большим набором данных из примерно 10 000 изображений 600x450 пикселей для проекта глубокого обучения, который я придумал.До сих пор я пробовал несколько разных способов импортировать эти изображения в свою программу, хотя заметил, что все они занимают очень много времени.Честно говоря, я понимаю, что размер моего набора данных отнюдь не мал, но мне просто интересно посмотреть, есть ли лучший способ сделать это, поскольку фаза импорта моих данных завершена только на 25%как я пишу это, и это продолжалось около 9 часов.Я открыт для любых предложений, которые могут возникнуть у кого-либо для более эффективного импорта этих данных;В конечном итоге я пытаюсь получить тензор данных изображения, представленных в виде пустых матриц, поскольку мой проект глубокого обучения, который я придумал, включает в себя сверточные нейронные сети.Возможно, мне лучше уменьшить изображения?Если это так, пожалуйста, дайте мне знать, как я могу сделать это эффективно, так как, как я уже сказал, их 10 000.Вот мой рабочий код:
DATADIR = "./HAM10000/skin-cancer-mnist-ham10000/HAM10000_full"
lesions = []
for image in range(24306, 34320):
printProgressBar(image-24306, 34320-24306, prefix='Import', decimals=2)
path = os.path.join(DATADIR, ("ISIC_" + "{:07d}".format(image) + ".jpg")) # path to lesion images
lesions = np.append(lesions, cv2.imread(path))
Большая часть кода здесь заключается в том, чтобы просто получить правильные имена изображений, хотя, как вы можете видеть, я использую cv2.imread для загрузки каждого отдельного изображения, и ядобавление этого изображения в массив numpy.