Я новичок в тензорном потоке и глубоком изучении. В настоящее время я планирую использовать TensorFlow, чтобы сделать OCR, который может извлечь информацию из файла изображения. Информация в файлах изображений может быть напечатана текстом или рукописным текстом. На моем сервере у меня есть миллион файлов этого изображения.
Ниже приведен мой пример файла изображения: введите описание изображения здесь
И я изучил статью об оптическом распознавании символов, которая сделано Tensorflow. Ниже ссылка на статью:
https://github.com/githubharald/SimpleHTR/tree/master
https://github.com/lamhoangtung/LineHTR
https://towardsdatascience.com/faq-build-a-handwritten-text-recognition-system-using-tensorflow-27648fb18519
Мой вопрос, прежде чем я начну свою работу, должен ли я создать свой собственный набор данных, который является файлом изображения, доступным на моем сервере? или я должен использовать обратно набор данных MNIST или набор данных в Интернете?
если я создаю свой собственный набор данных, нужно ли его обрезать, а затем использовать только для модели поезда?