Question

Я хочу получить текст из файла PDF с помощью iTextSharp. Однако я не смог использовать PDFTextExtractor, как в библиотеке JAVA itextsharp (itext). Мне нужен класс readPDFOffline, чтобы вернуть содержимое файла. Ниже я приведу псевдо, чтобы вы хорошо поняли, чего я хочу.

приватная строка readPDFOffline (string fileUri) ;
читать PDF;
получить текстовое содержимое этого PDF; *
сохранить содержимое в строку contentOfflineFile ;
return contentOfflineFile ;

Я бы хотел выполнить * часть кода

Mark Storer · Answer 1 · 11 декабря 2010

PdfTextExtractor присутствует в самых последних выпусках iTextSharp, доступно здесь .

Получение текста в формате PDF не просто.Не невозможно, но бывают случаи, когда единственное, что сработает, это OCR.Во всех остальных случаях PdfTextExtractor должен работать.Случаи, когда он не работает, считаются ошибками и должны сообщаться как таковые.

Имейте в виду, что есть несколько случаев, когда то, что выглядит как действительный текст, не может быть извлечено:

Текст безкодирование ... просто глиф индексы.OCR time.
«Текст», который является просто необработанными путями.Ужасно неэффективно, и время для дополнительного распознавания текста.
«Текст», то есть пиксели в растровом изображении.OCR еще раз.

OCR : Оптическое распознавание символов.Даже в Google Code есть достаточно неплохой бесплатный доступ, хотя я не помню его названия.

Как использовать PDFTextExtractor на iTextSharp

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Как использовать PDFTextExtractor на iTextSharp

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы