Тессеракт не признает немецкий "фюр" - PullRequest
0 голосов
/ 24 мая 2018

Я использую tesseract 4.0 через изображение докера tesseractshadow / tesseract4re

Я использую опцию -l=deu, чтобы дать подсказку tesseract, что текст написан на немецком языке «deutsch».

Тем не менее результат для немецкого слова "für" не очень хороший.Немецкое слово очень распространено (по-английски означает «для»).

Тессеракт часто обнаруживает «fiir» или «мех».

Что я могу сделать, чтобы улучшить это?

воспроизводимый пример

docker run --name self.container_name --rm \
    --volume  $PWD:/pwd \
    tesseractshadow/tesseract4re \
    tesseract /pwd/die-fuer-das.png /pwd/die-fuer-das.png.ocr-result -l=deu

Результат:

cat die-fuer-das.png.ocr-result.txt 
die fur das

Изображение die_fuer_das.png:

enter image description here

1 Ответ

0 голосов
/ 30 мая 2018

Я нашел решение.Это должно быть -l deu, иначе немецкий язык не привыкнет.Я случайно использовал -l=deu.

Работы:

===> tesseract  die-fuer-das.png out  -l deu; cat out.txt
Tesseract Open Source OCR Engine v4.0.0-beta.1-262-g555f with Leptonica
die für das

Неправильный язык:

===> tesseract  die-fuer-das.png out  -l=deu; cat out.txt
Tesseract Open Source OCR Engine v4.0.0-beta.1-262-g555f with Leptonica
die fur das
...