Я использую itextsharp 5.1.1, чтобы извлечь весь текст для подсчета всех слов в нем с помощью следующего кода
public static string GetTextFromAllPages(String pdfPath)
{
PdfReader reader = new PdfReader(pdfPath);
StringWriter output = new StringWriter();
for (int i = 1; i <= reader.NumberOfPages; i++)
output.WriteLine(PdfTextExtractor.GetTextFromPage(reader, i, new SimpleTextExtractionStrategy()));
return output.ToString();
}
, но для разных языков (en, fr, ..) и входных файлов это в основномдает неверный результат от реальной стоимости я ожидаю