c # Читать строку из PDF - PullRequest
       10

c # Читать строку из PDF

6 голосов
/ 20 января 2009

Я хочу иметь возможность читать построчно из PDF-файла, сравнивать его со строкой (именем файла), и, если строка появляется в этой строке, записать эту строку в список.

Пока что я быстро взглянул на ITextSharp и PDFSharp, но, похоже, это не те инструменты, которые подходят для работы, поскольку они больше всего фокусируются на изменении и печати PDF-файлов.

Кто-нибудь знает другой способ чтения строк из PDF-файла, или я должен продолжать попытки с ITextSharp & PDFSharp?

Ответы [ 3 ]

3 голосов
/ 20 января 2009

Я использую PDFBox с Lucene. Было легко узнать, как это работает, и это делает работу. Это с открытым исходным кодом и бесплатно.

1 голос
/ 23 мая 2011

Вы можете попробовать Библиотека Docotic.Pdf .

Библиотека может использоваться для извлечения многострочного простого текста со всех страниц PDF, а затем вы можете искать имя файла или что-либо еще в этом тексте.

Пожалуйста, посмотрите на образец в моем ответе на другой аналогичный вопрос .

Отказ от ответственности: я работаю на Bit Miracle.

0 голосов
/ 20 января 2009

Как вы знаете (я полагаю), PDF не является форматом текстового файла. Есть много инструментов, которые вы можете использовать для извлечения текста.
Два примера:
- Xpdf.PdftoText (www.foolabs.com/xpdf/) Бесплатно - Exe, командная строка
- Pdflib.Tet (www.pdflib.com) $$$ - библиотека (net, java, com, ...)

...