Конвертация PDF в TXT - PullRequest
0 голосов
/ 04 июня 2018

У меня есть данные в виде PDF-файлов, и я хочу преобразовать их в текст.Я хочу удалить изображения, верхний и нижний колонтитулы, иначе данные останутся только в виде многострочных таблиц. Не могли бы вы предложить лучший способ конвертировать их?Я пробовал tabula и apache tika, но результаты не желательны.

Ответы [ 2 ]

0 голосов
/ 04 июня 2018

Как вы, наверное, знаете, текст в PDF располагается по координатам x / y на странице.Заголовки не сохраняются / не идентифицируются как таковые, как в MSWord, HTML и т. Д.

Приятно слышать, что вы пробовали tabula: https://github.com/tabulapdf/tabula.Я сожалею, что это не сработало для вас.

Если вы работаете с журнальными статьями, вам может повезти с grobid https://wiki.apache.org/tika/GrobidJournalParser

Чтобы извлечь текст по местоположениям, см .:https://stackoverflow.com/a/35299074

0 голосов
/ 04 июня 2018

http://pdftotext.com/ это работает, но, вероятно, не так, как вы ищете

...