Я боролся так же, как и вы, пока не нашел этот репозиторий github:
https://github.com/OCR-D/ocrd-train
Это сделает вашу жизнь супер легкой. Все, что вам нужно сделать, это поместить ваши изображения в формат tif, и ваш текст должен иметь то же имя изображения с расширением .gt.txt. Он позаботится обо всем остальном для вас. (вам может потребоваться обновить Makefile в соответствии с вашим локальным компьютером)
Тренироваться ли с нуля или точно, зависит от вашего языка, данных и проблемы, которую вы пытаетесь решить. Мне нужна точная настройка, потому что я доволен текущей производительностью, но мне нужно добавить ее.
Все полезные детали, которые могут вам понадобиться, можно найти в этом ответе
.