Я использую tesseract 4.0 через изображение докера tesseractshadow / tesseract4re
Я использую опцию -l=deu
, чтобы дать подсказку tesseract, что текст написан на немецком языке «deutsch».
Тем не менее результат для немецкого слова "für" не очень хороший.Немецкое слово очень распространено (по-английски означает «для»).
Тессеракт часто обнаруживает «fiir» или «мех».
Что я могу сделать, чтобы улучшить это?
воспроизводимый пример
docker run --name self.container_name --rm \
--volume $PWD:/pwd \
tesseractshadow/tesseract4re \
tesseract /pwd/die-fuer-das.png /pwd/die-fuer-das.png.ocr-result -l=deu
Результат:
cat die-fuer-das.png.ocr-result.txt
die fur das
Изображение die_fuer_das.png: