Извлечение текста из файла PDF совсем не тривиально.
Цитировать из учебника iTextSharp.
"Формат PDF - это просто холст, где
текст и графика размещаются без
любая структура информации. В качестве таких
нет никаких 'iText-объектов' в
PDF файл На каждой странице будет
вероятно, будет ряд «строк», но
Вы не можете восстановить фразу или
абзац с использованием этих строк. Там
вероятно, несколько нарисованных линий,
но вы не можете получить объект Table
основываясь на этих линиях. Короче:
Разбор содержимого PDF-файла
НЕ ВОЗМОЖНО с iText. "
Есть несколько коммерческих приложений, которые утверждают, что могут это сделать. Будьте бдительны.
Существует также бесплатная библиотека программного обеспечения под названием Poppler http://poppler.freedesktop.org/, которая используется программами просмотра PDF в GNOME и KDE. У него есть функция pdftotext (), но у меня нет опыта работы с ней. Это может быть ваш лучший бесплатный вариант.