Как извлечь структурированную информацию из PDF-файла в Java - PullRequest
2 голосов
/ 14 мая 2011

Мне нужно извлечь таблицу из pdf файла, я знаю, что она не хранится в формате таблицы, но я хочу прочитать результаты учеников из pdf в java, пожалуйста, помогите, если кто-нибудь знает .... спасибо

Ответы [ 2 ]

3 голосов
/ 15 мая 2011

SOme PDF-файлы содержат структурированный текст PDF (http://www.jpedal.org/PDFblog/2010/09/the-easy-way-to-discover-if-a-pdf-file-contains-structured-content/). Если этого не происходит, эвристический анализатор должен сам догадаться и добавить структуру.

Разработчики PdfBox проделали большую работу над таблицами, но она никогда не будет идеальной

3 голосов
/ 14 мая 2011

Для этого вы должны использовать анализатор PDF.Проверьте этот список библиотек PDF с открытым исходным кодом для Java .

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...