Этот тип изображений, где текстовые экземпляры не могут быть легко разделены, tesseract не даст хороших результатов. Тессеракт - хороший вариант, если вы хотите извлечь текст из документа / papaer / pdfs и т. Д. c. там, где текстовые фрагменты понятны.
Для вашей проблемы я бы предложил вам следовать отдельным моделям обнаружения и распознавания текста. Для обнаружения текста вы можете использовать современные модели, такие как восточный текстовый детектор, который может определять местоположение текста на различных изображениях. Он создаст ограничивающие рамки вокруг текста на изображениях, и затем этот блок может быть передан другой модели распознавания текста, которая будет выполнять реальную задачу распознавания.
Для обнаружения текста: восточная или любая другая последняя модель Для распознавания текста : Модели на основе CRNN
Пожалуйста, попробуйте реализовать вышеупомянутые модели, и я уверен, что они будут работать лучше, чем то, что вы получаете от Tesseract:)
BR!