Question

У меня есть огромный файл PDF (20 МБ / 800 страниц), который содержит некоторую информацию.

Имеет индекс с гиперссылками. Также большая часть оставшейся информации представлена в табличном формате (в формате pdf). Мне нужно получить эту информацию с помощью Java и сохранить ее на SQL Server.

Какой лучший API доступен для чтения файлов такого типа с Java?

mark stephens · Answer 1 · 09 февраля 2011

Маловероятно, что он будет в табличном формате внутри PDF, поскольку PDF не содержит структурную информацию, если он явно не добавлен во время создания. Я написал статью, объясняющую некоторые проблемы с извлечением текста из PDF на http://www.jpedal.org/PDFblog/2009/04/pdf-text/

Naveed · Answer 2 · 09 февраля 2011

Вы пробовали iText :

Лучший API для чтения огромного PDF-файла из Java

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Лучший API для чтения огромного PDF-файла из Java

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов