Я пытаюсь заставить tesseract распознавать текст на скриншоте (что должно быть относительно легко, учитывая, что это кристально чистый текст), но когда я пытаюсь научить его распознавать текст с большей точностью, результаты полностью распадаются.
Без файла обучения точность тессеракта составляет около 90%.Но с обучающим файлом, который включает ТОЛЬКО шрифт целевого текста, он по какой-то причине совершенно непригоден.
Можно утверждать, что мое целевое изображение нуждается в предварительной обработке для получения лучших результатов, но мой текст острый как ножЭто простой черный текст на белом фоне, увеличенный до 754 x 110 пикселей и всего 3 слова.
Вот код в скрипте, который читает текст и записывает его в файл
from PIL import Image
import pytesseract
im = Image.open("open accounts2.png")
#variable to save ocr'd text to
text = pytesseract.image_to_string(im, lang = 'noumlaut')
f= open("test3.txt","w+")
f.write(text)
в текстовом файле должно быть написано «выберите авиасообщение», но вместо него написано «SBIBQE Air SaniQBB»
без моего учебного файла, в выходном тексте будет указано «Выбрать Ar Services». В большинстве случаев этобыть незначительным пределом погрешности, но это не будет делать для меня.особенно когда я кормлю его кристально чистым текстом.