Лучший API для чтения огромного PDF-файла из Java - PullRequest
1 голос
/ 09 февраля 2011

У меня есть огромный файл PDF (20 МБ / 800 страниц), который содержит некоторую информацию.

Имеет индекс с гиперссылками. Также большая часть оставшейся информации представлена ​​в табличном формате (в формате pdf). Мне нужно получить эту информацию с помощью Java и сохранить ее на SQL Server.

Какой лучший API доступен для чтения файлов такого типа с Java?

Ответы [ 2 ]

2 голосов
/ 09 февраля 2011

Маловероятно, что он будет в табличном формате внутри PDF, поскольку PDF не содержит структурную информацию, если он явно не добавлен во время создания. Я написал статью, объясняющую некоторые проблемы с извлечением текста из PDF на http://www.jpedal.org/PDFblog/2009/04/pdf-text/

1 голос
/ 09 февраля 2011
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...