Я работаю над одним проектом, в котором есть функциональность, которую необходимо реализовать с помощью PDF
Я хочу прочитать текст файла PDF в моем проекте c # .net.
Кто-нибудь может знать, как это сделать?
Посмотрите следующие ссылки:
Как читать PDF-файлы с использованием C # .NET
и
Чтение PDFв C #
Надеемся, что они могут направить вас в правильном направлении.
Я бы очень хотел использовать метод getText () класса PdfTextStripper. Чтобы реализовать это, вы можете просмотреть следующий URL:
http://naspinski.net/post/ParsingReading-a-PDF-file-with-C-and-AspNet-to-text.aspx
http://www.codeproject.com/Articles/12445/Converting-PDF-to-Text-in-C
Попробуйте эту библиотеку, очень простую в использовании и именно то, что вам нужно:
http://www.codeproject.com/Articles/14170/Extract-Text-from-PDF-in-C-100-NET
Возможно, можно использовать pdfLib.
С Домашняя страница pdfLib
PDFlib TET PDF IFilter (Enterprise PDF Search в Windows) извлекает текст и метаданные из PDFдокументы и делает его доступным для поиска и поиска программного обеспечения в Windows.
Краткий ответ, если вы не генерируете pdf и делаете это правильно, нет.
PDF-файлы создаются аналогично тому, что отправляется на принтер. Не весь текст в них читается, и информация о тексте может храниться произвольно. Также некоторые программы могут сохранять текст в векторном или растровом формате.