Tesseract4.0alpha - проблема с извлечением символов Unicode - PullRequest
0 голосов
/ 06 февраля 2019

Я создаю инструмент для извлечения текста из PDF на основе тессеракта.Кажется, что извлекает простой английский pdf довольно хорошо.Однако при извлечении текста, как показано на прилагаемом изображении, символы юникода, такие как дельта, альфа, бета и химические имена с суб и суперскриптами, не извлекаются должным образом.Как дельта извлекается с символом - 'A' и все.

enter image description hereenter image description here

Перепробовал все возможные варианты.Ссылка: https://github.com/tesseract-ocr/tesseract/wiki/Command-Line-Usage, но не везет.

Я пробовал многоязычие как tesseract -l eng+gll name.pdf.png name.pdf.Но он не получает символ unicode.

Есть ли обходной вариант или опция, которая может извлечь символ unicode?

...