Как извлечь текстовые данные из PDF без включения таблиц и их содержимого? - PullRequest
0 голосов
/ 23 декабря 2019

У меня есть требование, чтобы извлечь только текст из PDF и игнорировать все, что в табличном формате. Я много искал в Интернете и нашел инструменты для идентификации таблиц (такие как tabula, camelot). Мне нужно игнорировать любую табличную структуру в моем PDF-документе и включать только текст абзаца.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...