Лучший способ извлечь весь текст Unicode в PDF-файл в .Net? - PullRequest
1 голос
/ 24 мая 2010

Я использую itextsharp 5.1.1, чтобы извлечь весь текст для подсчета всех слов в нем с помощью следующего кода

public static string GetTextFromAllPages(String pdfPath)
{
    PdfReader reader = new PdfReader(pdfPath);
    StringWriter output = new StringWriter(); 
    for (int i = 1; i <= reader.NumberOfPages; i++) 
        output.WriteLine(PdfTextExtractor.GetTextFromPage(reader, i, new SimpleTextExtractionStrategy()));

    return output.ToString();
}

, но для разных языков (en, fr, ..) и входных файлов это в основномдает неверный результат от реальной стоимости я ожидаю

1 Ответ

1 голос
/ 24 мая 2010

iTextSharp (http://sourceforge.net/projects/itextsharp/) имеет надежный API для работы с PDF.

...