Question

Я создаю инструмент для извлечения текста из PDF на основе тессеракта.Кажется, что извлекает простой английский pdf довольно хорошо.Однако при извлечении текста, как показано на прилагаемом изображении, символы юникода, такие как дельта, альфа, бета и химические имена с суб и суперскриптами, не извлекаются должным образом.Как дельта извлекается с символом - 'A' и все.

Перепробовал все возможные варианты.Ссылка: https://github.com/tesseract-ocr/tesseract/wiki/Command-Line-Usage, но не везет.

Я пробовал многоязычие как tesseract -l eng+gll name.pdf.png name.pdf.Но он не получает символ unicode.

Есть ли обходной вариант или опция, которая может извлечь символ unicode?

Tesseract4.0alpha - проблема с извлечением символов Unicode

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Tesseract4.0alpha - проблема с извлечением символов Unicode

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Похожие темы