Как читать текст из файла PDF в веб-приложении c # .net - PullRequest
3 голосов
/ 05 марта 2012

Я работаю над одним проектом, в котором есть функциональность, которую необходимо реализовать с помощью PDF

Я хочу прочитать текст файла PDF в моем проекте c # .net.

Кто-нибудь может знать, как это сделать?

Ответы [ 5 ]

3 голосов
/ 05 марта 2012

Посмотрите следующие ссылки:

Как читать PDF-файлы с использованием C # .NET

и

Чтение PDFв C #

Надеемся, что они могут направить вас в правильном направлении.

1 голос
/ 05 марта 2012

Я бы очень хотел использовать метод getText () класса PdfTextStripper. Чтобы реализовать это, вы можете просмотреть следующий URL:

http://naspinski.net/post/ParsingReading-a-PDF-file-with-C-and-AspNet-to-text.aspx

http://www.codeproject.com/Articles/12445/Converting-PDF-to-Text-in-C

1 голос
/ 05 марта 2012

Попробуйте эту библиотеку, очень простую в использовании и именно то, что вам нужно:

http://www.codeproject.com/Articles/14170/Extract-Text-from-PDF-in-C-100-NET

1 голос
/ 05 марта 2012

Возможно, можно использовать pdfLib.

С Домашняя страница pdfLib

PDFlib TET PDF IFilter (Enterprise PDF Search в Windows) извлекает текст и метаданные из PDFдокументы и делает его доступным для поиска и поиска программного обеспечения в Windows.

0 голосов
/ 05 марта 2012

Краткий ответ, если вы не генерируете pdf и делаете это правильно, нет.

PDF-файлы создаются аналогично тому, что отправляется на принтер. Не весь текст в них читается, и информация о тексте может храниться произвольно. Также некоторые программы могут сохранять текст в векторном или растровом формате.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...