Получить текстовую позицию с Tesseract 2.04 и Java - PullRequest
3 голосов
/ 05 декабря 2011

Я выполняю оптическое распознавание текста с использованием Tesseract 2.04 на некоторых изображениях, и теперь мне нужно получить точное положение текста в океане. Но эта версия не возвращает эту информацию.

Мне нужно это для создания PDF-файла с возможностью поиска. Я уже научился штамповать текст в нижнем слое PDF, но мне нужна позиция, чтобы поставить этот текст. Моя первая идея - выполнить ocr в pdf, получить текст и положение текста, чтобы поставить штамп в pdf с помощью iText api.

1 Ответ

6 голосов
/ 18 июля 2017

Внутри iText мы также изучили OCR.И это возможно (используя Tesseract).

рабочий процесс:

  1. извлечение всех изображений из PDF с помощью iText
  2. извлечение текста (и координат, шрифта и т. Д.)) используя Tesseract
  3. применить преобразования координат (поскольку система координат tesseract и система координат iText не совпадают)
  4. добавить слой в pdf (canvas.beginLayer)
  5. drawвесь текст в этом слое в правильном положении

Есть еще много оптимизаций, которые вы можете сделать.Краткий список предложений:

  • правильная базовая линия
  • правильный шрифт
  • правильные орфографические ошибки
  • оценка цвета
  • оценка фонацвет

Это не простая задача.Но, конечно, возможно.

...