Как я могу улучшить распознавание Tesseract определенного шрифта? - PullRequest
0 голосов
/ 26 марта 2019

Я пытаюсь заставить tesseract распознавать текст на скриншоте (что должно быть относительно легко, учитывая, что это кристально чистый текст), но когда я пытаюсь научить его распознавать текст с большей точностью, результаты полностью распадаются.

Без файла обучения точность тессеракта составляет около 90%.Но с обучающим файлом, который включает ТОЛЬКО шрифт целевого текста, он по какой-то причине совершенно непригоден.

Можно утверждать, что мое целевое изображение нуждается в предварительной обработке для получения лучших результатов, но мой текст острый как ножЭто простой черный текст на белом фоне, увеличенный до 754 x 110 пикселей и всего 3 слова.

Вот код в скрипте, который читает текст и записывает его в файл

    from PIL import Image
    import pytesseract
    im = Image.open("open accounts2.png")
    #variable to save ocr'd text to
    text = pytesseract.image_to_string(im, lang = 'noumlaut')
    f= open("test3.txt","w+")
    f.write(text)

в текстовом файле должно быть написано «выберите авиасообщение», но вместо него написано «SBIBQE Air SaniQBB»

без моего учебного файла, в выходном тексте будет указано «Выбрать Ar Services». В большинстве случаев этобыть незначительным пределом погрешности, но это не будет делать для меня.особенно когда я кормлю его кристально чистым текстом.

...