Чтение PDF-файла с помощью iText5 для .NET - PullRequest
16 голосов
/ 09 декабря 2011

Я использую C # в качестве платформы программирования и iTextSharp для чтения содержимого PDF. Я использовал приведенный ниже код для чтения содержимого, но кажется, что он читается на странице.

        public string ReadPdfFile(object Filename)
        {

            string strText = string.Empty;
            try
            {
                PdfReader reader = new PdfReader((string)Filename);

                for (int page = 1; page <= reader.NumberOfPages; page++)
                {
                    ITextExtractionStrategy its = new iTextSharp.text.pdf.parser.SimpleTextExtractionStrategy();
                    String s = PdfTextExtractor.GetTextFromPage(reader, page, its);

                    s = Encoding.UTF8.GetString(ASCIIEncoding.Convert(Encoding.Default, Encoding.UTF8, Encoding.Default.GetBytes(s)));
                    strText = strText + s;

                }
                reader.Close();
            }
            catch (Exception ex)
            {
                MessageBox.Show(ex.Message);
            }
            return strText;
        }

Может ли кто-нибудь помочь мне с написанием кода для чтения содержимого PDF в каждой строке?

1 Ответ

14 голосов
/ 09 декабря 2011

Попробуйте, используйте LocationTextExtractionStrategy вместо SimpleTextExtractionStrategy это добавит новые символы строки к возвращенному тексту. Затем вы можете использовать strText.Split('\n'), чтобы разбить ваш текст на string[] и использовать его для каждой строки.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...