Извлечение текста урду из PDF с помощью iTextsharp - PullRequest
0 голосов
/ 31 марта 2020

При извлечении текста на языке урду (rtl) из pdf с использованием iTextsharp он отображает зеркальный (перевернутый) текст, есть ли какой-нибудь пример, которому я могу следовать, чтобы правильно извлечь текст на языке урду из pdf?

    static string ReadPdfFile(string fileName)
    {
        StringBuilder text = new StringBuilder();

        if (File.Exists(fileName))
        {
            PdfReader pdfReader = new PdfReader(fileName);
            for (int page = 2; page <= pdfReader.NumberOfPages; page++)
            {
                ITextExtractionStrategy strategy = new SimpleTextExtractionStrategy();
                string currentText = PdfTextExtractor.GetTextFromPage(pdfReader, page, strategy);

                currentText = Encoding.UTF8.GetString(Encoding.Convert(Encoding.Default, Encoding.UTF8, Encoding.UTF8.GetBytes(currentText)));

                text.Append(currentText);
            }
            pdfReader.Close();
        }
        return text.ToString();
    }

1 Ответ

0 голосов
/ 31 марта 2020

В персидском языке, который является языком RTL, как и урду, я использую пользовательский метод после обычного извлечения с iTextSharp:

public string ReverseTheString(string source)
{
    try
    {
        return new string(source.ToCharArray().Reverse().ToArray());
    }
    catch (Exception ex)
    {
            return null;
    }
}
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...