Разбор множества файлов и извлечение данных в новый файл? - PullRequest
0 голосов
/ 21 сентября 2011

Хорошо! Мои седые волосы начали высовываться из-за этого.

У меня есть 400 файлов PDF, из которых я хочу извлечь строку. Строка начинается с DIR, а затем следует число. Но мне также понадобится имя файла!

Так кто-нибудь знает способ анализа PDF-файлов (или я могу преобразовать их в txt), а затем искать термин, расширять, добавлять к нему имя файла и сохранять его в новом файле.

Любая помощь будет принята с благодарностью !!

Спасибо

Тор

1 Ответ

0 голосов
/ 21 сентября 2011

У вас есть Itext библиотека, которую вы можете использовать для открытия PDF.Чем вам нужно будет отсканировать каждый pdf для вашего шаблона. Ссылка на библиотеку www.itextpdf.com

...