Извлечение определенного поля из нескольких файлов PDF и запись в текстовый файл - PullRequest
0 голосов
/ 21 июля 2011

У меня есть каталог, заполненный подкаталогами, все файлы PDF и / или подкаталоги, заполненные файлами PDF.По сути, очень неорганизованная группа PDF-файлов.То, что я хотел бы сделать, - это проанализировать каждый файл, вытащить содержимое одного определенного поля и вывести вывод в текстовый файл.Конечным результатом будет большой текстовый файл, содержащий содержимое поля в каждом отдельном PDF.Конечно, это возможно.Вопрос в том, можно ли это сделать легко, без особого программирования.

Ответы [ 2 ]

1 голос
/ 21 июля 2011

Я когда-либо использовал функции iText для создания PDF-файлов, но я знаю, что у него также есть функции извлечения PDF-текста. Он распространяется по лицензии GPL или платной коммерческой лицензии, если вам нужно распространять ее.

http://itextpdf.com/

1 голос
/ 21 июля 2011

На мой взгляд, лучший вариант - заплатить немного денег за сторонний компонент, который предоставит API.

http://www.aspose.com/categories/java-components/aspose.pdf-for-java/default.aspx http://www.pdfcomponent.com/java-pdf/

Если это не обязательно должно быть в Java, я считаю, что в PHP есть библиотека с открытым исходным кодом.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...