У меня есть документ (pdf), который содержит текст на языке хинди.Я преобразовал его в изображение .tiff, используя ImageMagick , с помощью команды:
magick convert -density 300 filename.pdf -depth 8 test.tiff
Затем я использовал tesseract
для выполнения оптического распознавания изображения .tiff
:
C:\Users\H.P\Downloads>tesseract test.tiff test1.txt -l hin
Tesseract Open Source OCR Engine v3.05.01 with Leptonica
Page 1
Page 2
Page 3
Но результат совсем не уместен.Для улучшения результата доступны следующие варианты:
- Предварительная обработка изображения.
- Обучение Tesseract для конкретного шрифта.
Учитывая чистотутекст в файле .pdf, я склоняюсь к предположению, что он не требует какой-либо предварительной обработки.Хотя, поскольку текст находится в столбцах, он может потребовать некоторой сегментации.Не зная, какие шаги следует предпринять, я подумал о том, чтобы спросить, прежде чем что-то делать.
Итак, что нужно сделать с данным изображением, чтобы Tesseract работал лучше?
Документ выглядит примерно так: