Question

Я выполняю оптическое распознавание текста с использованием Tesseract 2.04 на некоторых изображениях, и теперь мне нужно получить точное положение текста в океане. Но эта версия не возвращает эту информацию.

Мне нужно это для создания PDF-файла с возможностью поиска. Я уже научился штамповать текст в нижнем слое PDF, но мне нужна позиция, чтобы поставить этот текст. Моя первая идея - выполнить ocr в pdf, получить текст и положение текста, чтобы поставить штамп в pdf с помощью iText api.

Joris Schellekens · Answer 1 · 18 июля 2017

Внутри iText мы также изучили OCR.И это возможно (используя Tesseract).

рабочий процесс:

извлечение всех изображений из PDF с помощью iText
извлечение текста (и координат, шрифта и т. Д.)) используя Tesseract
применить преобразования координат (поскольку система координат tesseract и система координат iText не совпадают)
добавить слой в pdf (canvas.beginLayer)
drawвесь текст в этом слое в правильном положении

Есть еще много оптимизаций, которые вы можете сделать.Краткий список предложений:

правильная базовая линия
правильный шрифт
правильные орфографические ошибки
оценка цвета
оценка фонацвет

Это не простая задача.Но, конечно, возможно.

Получить текстовую позицию с Tesseract 2.04 и Java

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Получить текстовую позицию с Tesseract 2.04 и Java

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы