Чтение PDF в ядре net с itext7 возвращает "\ n \ n \ n \ n \ n ...." - PullRequest
0 голосов
/ 31 января 2020

У меня есть приложение netcore 3 для чтения и разделения PDF, содержащего зарплаты некоторых компаний, на которые я работаю.

Это приложение работало довольно хорошо с момента последней сборки ... Кстати, читатель PDF начал не разбирать содержимое любого PDF.

PDF построен только с итальянскими словами, без специальных символов. Несколько столов и один ло go. Я не могу прикрепить его из-за конфиденциальности.

    public PaycheckSplitter Read()
    {
        using (var reader = new PdfReader(new MemoryStream(this._stream)))
        {
            var doc = new PdfDocument(reader);


            this.Paycheck = new PaychecksCollection();

            for (int i = 1; i <= doc.GetNumberOfPages(); i++)
            {
                PdfPage page = doc.GetPage(i);

                string text = PdfTextExtractor.GetTextFromPage(page, new LocationTextExtractionStrategy());
                if (text.Contains(Consts.BpEnd)) break;

                // trying to find something by regex... btw text contains only a sequence of \n\n\n\n...
                string cf = Consts.CodFiscale.Match(text).Value;                     
                this.Paychecks.Add(new Paycheck(cf), i);
            }
            doc.Close();
        }

        return this;
    }

Что я могу сделать? Насколько я понимаю ... единственный и лучший способ получить что-нибудь для чтения PDF-текста бесплатно - это iText7 ...

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...