PdfTextExtractor присутствует в самых последних выпусках iTextSharp, доступно здесь .
Получение текста в формате PDF не просто.Не невозможно, но бывают случаи, когда единственное, что сработает, это OCR.Во всех остальных случаях PdfTextExtractor должен работать.Случаи, когда он не работает, считаются ошибками и должны сообщаться как таковые.
Имейте в виду, что есть несколько случаев, когда то, что выглядит как действительный текст, не может быть извлечено:
- Текст безкодирование ... просто глиф индексы.OCR time.
- «Текст», который является просто необработанными путями.Ужасно неэффективно, и время для дополнительного распознавания текста.
- «Текст», то есть пиксели в растровом изображении.OCR еще раз.
OCR : Оптическое распознавание символов.Даже в Google Code есть достаточно неплохой бесплатный доступ, хотя я не помню его названия.