Читать символы и текст из PDF, используя Itext - PullRequest
0 голосов
/ 20 октября 2011

Я использовал следующий код C # для чтения текста из файла PDF:

PdfReader reader = new PdfReader(openFileDialog1.FileName);
            int n = reader.NumberOfPages;               
            // file properties
            Dictionary<string, string> infodict = reader.Info;
            string strText = string.Empty;
            PdfReader reader2 = new PdfReader(openFileDialog1.FileName);
            for (int page = 1; page <= n; page++)
            {
                ITextExtractionStrategy its = new iTextSharp.text.pdf.parser.SimpleTextExtractionStrategy();    
                String s = PdfTextExtractor.GetTextFromPage(reader, page, its);                   
                s = Encoding.UTF8.GetString(ASCIIEncoding.Convert(Encoding.Default, Encoding.UTF8, Encoding.Default.GetBytes(s)));
                strText = strText + s;
                reader.Close();
            }
            MessageBox.Show(strText);

Этот код не может читать символы в файле PDF. Можно ли как-нибудь прочитать символы из файла PDF?

1 Ответ

0 голосов
/ 21 мая 2014

Попробуйте, используйте LocationTextExtractionStrategy вместо SimpleTextExtractionStrategy

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...