Улучшение результатов с помощью Tesseract - PullRequest
0 голосов
/ 28 мая 2018

У меня есть документ (pdf), который содержит текст на языке хинди.Я преобразовал его в изображение .tiff, используя ImageMagick , с помощью команды:

magick convert -density 300 filename.pdf -depth 8 test.tiff

Затем я использовал tesseract для выполнения оптического распознавания изображения .tiff:

C:\Users\H.P\Downloads>tesseract test.tiff test1.txt -l hin
Tesseract Open Source OCR Engine v3.05.01 with Leptonica
Page 1
Page 2
Page 3

Но результат совсем не уместен.Для улучшения результата доступны следующие варианты:

  1. Предварительная обработка изображения.
  2. Обучение Tesseract для конкретного шрифта.

Учитывая чистотутекст в файле .pdf, я склоняюсь к предположению, что он не требует какой-либо предварительной обработки.Хотя, поскольку текст находится в столбцах, он может потребовать некоторой сегментации.Не зная, какие шаги следует предпринять, я подумал о том, чтобы спросить, прежде чем что-то делать.

Итак, что нужно сделать с данным изображением, чтобы Tesseract работал лучше?

Документ выглядит примерно так: enter image description here

...