Я работаю над системой распознавания текста в Python, которая берет изображение печатного текста и выводит текст слов на этом изображении.
Для подготовки набора данных для обучения и тестирования у меня есть папка, которая содержит 35 подпапок (a-z и 1-9). Каждая подпапка содержит около 45 изображений (png-файлов) буквы / цифры (папка a содержит 45 изображений буквы a) в разных шрифтах. Как это:
![Example of letter a](https://i.stack.imgur.com/UApiK.png)
Я хочу превратить все эти папки в набор данных, который я могу использовать в своих поездах и тестовых наборах:
(X_train, y_train), (X_test, y_test) = dataset
Я уже сделал эту загрузку наборов данных, таких как MNIST, но я хочу знать, как сделать это из набора данных, созданного мной.
Спасибо.