Пренебрежение таблицами при извлечении PDF - PullRequest
0 голосов
/ 27 марта 2012

Я пытаюсь создать приложение для обработки текста на Java, которое требует ввода текста.Теперь я извлекаю этот ввод из PDF-файла, указанного пользователем.Я использую PdfBox для извлечения текста.У меня проблема в том, что файл PDF может содержать таблицы, уравнения и специальные символы, поэтому текст, который извлекает PdfBox, содержит мусор во многих местах.Из-за этого мое приложение для обработки текста не дает своего оптимального результата.Я хотел знать, имеет ли PDF конкретный формат для таблицы, чтобы я мог добраться до корневого уровня и исключить их при извлечении.Кроме того, во многих случаях извлеченный текст содержит неизвестные символы, отображаемые как '?'хотя в реальном PDF они кажутся нормальными алфавитами.Я также пробовал другую библиотеку - IText, но результаты не были удовлетворительными.Короче говоря, все, что я хочу, это извлечь простые предложения из PDF-файлов, исключая весь другой мусор.Было бы здорово, если бы кто-то мог помочь мне, предложив способ обойти эту проблему или другую лучшую библиотеку извлечения для Java.Спасибо.

Ответы [ 2 ]

1 голос
/ 28 марта 2012

PDF не имеет формата таблицы. Таблицы построены из строк и текста, вот и все. Тегированный PDF-файл может иметь такой тег, но они встречаются редко.

0 голосов
/ 27 марта 2012

Мне недавно потребовалось извлечь текст из PDF-файлов для дальнейшей обработки в Java - я использовал команду Linux pdftotext - если у вас есть эта команда, доступна ли вам эта опция?

РЕДАКТИРОВАТЬ: только что видел еще один пост сегодня о Apache Tika - который имеет PDF (и многие другие) парсеры.Может быть полезно для вас.http://tika.apache.org/

...