Tess4j - Pdf to Tiff to tesseract - «Предупреждение: недопустимое разрешение 0 точек на дюйм. Вместо него используется 70». - PullRequest
0 голосов
/ 08 октября 2019

Я использую tess4j (net.sourceforge.tess4j: tess4j: 4.4.0) и пробую OCR на pdf-файлах. Итак, как я понял, я должен сначала преобразовать PDF в TIFF или PNG (любой из предложенных?), Что я сделал следующим образом:

tesseract.doOCR(PdfUtilities.convertPdf2Tiff(inputPdfFile)); 

и получить следующее предупреждение:

Warning: Invalid resolution 0 dpi. Using 70 instead.

Вопрос

  • Влияет ли это на результаты моего сканирования? (если нет, хорошо - я могу отключить предупреждение)
  • Есть ли способ установить DPI вручную или convertPdf обработать это для меня?

1 Ответ

1 голос
/ 09 октября 2019

Если в метаданных изображения нет информации о разрешении, Tesseract пытается оценить разрешение самостоятельно, чтобы информация о размере шрифта могла быть рассчитана в результатах.

Вы можете попробовать следующие API для установки разрешения входного изображения:

instance.SetTessVariable("user_defined_dpi", "300");

или

TessBaseAPISetSourceResolution(TessBaseAPI handle, int ppi);

Вы можете отключить вывод консоли:

instance.setTessVariable("debug_file", "/dev/null");

...