Question

Как лучше всего извлекать данные из таблиц в формате PDF на русском языке в Java? Ищете SDK или API-решение. На самом деле я пытаюсь использовать инструмент Tabula, но он не работает с отсканированными PDF-файлами. Если единственным способом является OCR с Tesseract, то может быть он может быть настроен для работы с таблицами. Так есть ли решения или лучшие практики?

Mooncrater · Answer 1 · 29 июня 2018

Если формат таблицы предсказуемый, а PDF хорошего качества, то вы можете конвертировать страницы PDF в .tiff файлы с 300 density и 8 depth, используя ImageMagick . Затем вы можете обрезать текстовую часть, которую вы хотите OCR.

Другой вариант - удалить саму таблицу с изображения и оставить только текст. Я сделал это один раз, но он работал хуже, чем первый вариант.

Распознавание текста таблицы в PDF

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Распознавание текста таблицы в PDF

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы