Как использовать PDFTextExtractor на iTextSharp - PullRequest
3 голосов
/ 10 декабря 2010

Я хочу получить текст из файла PDF с помощью iTextSharp. Однако я не смог использовать PDFTextExtractor, как в библиотеке JAVA itextsharp (itext). Мне нужен класс readPDFOffline, чтобы вернуть содержимое файла. Ниже я приведу псевдо, чтобы вы хорошо поняли, чего я хочу.

приватная строка readPDFOffline (string fileUri) ;
читать PDF;
получить текстовое содержимое этого PDF; *
сохранить содержимое в строку contentOfflineFile ;
return contentOfflineFile ;

Я бы хотел выполнить * часть кода

1 Ответ

2 голосов
/ 11 декабря 2010

PdfTextExtractor присутствует в самых последних выпусках iTextSharp, доступно здесь .

Получение текста в формате PDF не просто.Не невозможно, но бывают случаи, когда единственное, что сработает, это OCR.Во всех остальных случаях PdfTextExtractor должен работать.Случаи, когда он не работает, считаются ошибками и должны сообщаться как таковые.

Имейте в виду, что есть несколько случаев, когда то, что выглядит как действительный текст, не может быть извлечено:

  1. Текст безкодирование ... просто глиф индексы.OCR time.
  2. «Текст», который является просто необработанными путями.Ужасно неэффективно, и время для дополнительного распознавания текста.
  3. «Текст», то есть пиксели в растровом изображении.OCR еще раз.

OCR : Оптическое распознавание символов.Даже в Google Code есть достаточно неплохой бесплатный доступ, хотя я не помню его названия.

...