Подсчет количества знаков минус в документе PDF с использованием C # - PullRequest
2 голосов
/ 22 июня 2011

Я пытаюсь подсчитать количество знаков минус в документе PDF.

Я попытался открыть документ с помощью бинарного редактора и увидеть, что символы не могут быть идентифицированы напрямую.

Кто-нибудь знает, как это сделать?Предпочтительно с использованием C #.

Ответы [ 4 ]

4 голосов
/ 22 июня 2011

Попробуйте с ITextSharp , это поможет вам декодировать PDF и извлечь из него текст.

3 голосов
/ 22 июня 2011

Отказ от ответственности: я работаю для Atalasoft по технологиям PDF.Вы можете использовать наш класс PdfTextDocument, чтобы сделать это довольно легко:

int minusCount = 0;
using (PdfTextDocument doc = new PdfTextDocument(pdfStream)) {
    using (PdfTextReader reader = doc.GetPdfTextReader()) {
        int c = 0;
        while ((c = reader.Read()) >= 0) { // return < 0 at end
           if ((char)c == '-') minusCount++;
        }
    }
}
2 голосов
/ 22 июня 2011

Вам нужно использовать библиотеку, , например, такую, например, , чтобы преобразовать документ PDF в нечто, что вы можете фактически проанализировать как текст.См. в этом сообщении на форуме и ответьте для этой библиотеки для некоторых быстрых ответов.

1 голос
/ 22 июня 2011

Посмотрите на этот вопрос Как программно искать документ PDF в c #

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...