Поиск и раскраска текста в PDF-файле с помощью c # - PullRequest
0 голосов
/ 06 января 2010

Боюсь, я даже не знаю, с чего начать со следующей проблемой, поэтому, если кто-нибудь из вас даст мне несколько советов, я буду признателен.

Мне нужно загрузить и отобразить PDF-файл. Затем мне нужно найти и раскрасить несколько интересных слов в указанном PDF-файле (с указанием позиции, страницы и т. Д.), Используя C #. У меня Adobe Acrobat 7 Professional, поэтому у меня есть некоторые инструменты COM.

Привет.

Ответы [ 3 ]

1 голос
/ 06 января 2010

Манипулировать PDF-файлом сложно, так как pdf - жесткий формат. Есть хорошие библиотеки, отлично справляющиеся с работой, такие как ITextSharp .

Но я советую преобразовать файл PDF в HTML и поиграть с выводом HTML. Затем отобразите его в элементе управления WebBrowser.

Я знаю, что это ужасное решение . Также у этого уродливого решения есть другое уродливое решение для преобразования файла PDF в HTML.

См .: http://aspdotnetcodebook.blogspot.com/2008/08/how-to-convert-pdf-file-to-text-in.html

1 голос
/ 06 января 2010

Вы можете использовать iText для загрузки, изменения и повторного сохранения документа.Если вы можете просто запустить Acrobat, то вы дома.

0 голосов
/ 07 января 2010

Моя компания продает компоненты .NET PDF, которые можно использовать для извлечения текста из документов, а также для отображения страниц. У нас есть демоверсия здесь , которая выполняет полнотекстовый поиск и выделение документа PDF, что очень близко к тому, что вы хотите сделать. Пока изменения не должны быть постоянными, эта техника будет работать для вас.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...