Чтение строк в PDF в строковый массив с использованием itext7 и C# - PullRequest
0 голосов
/ 29 апреля 2020

Я пытаюсь использовать iText 7 и C#, чтобы проанализировать PDF, показывающий всех людей в нашей местной тюрьме. PDF создается автоматически, с заголовком, данными в таблице и нижним колонтитулом. Я получил iText для разбора текста в строковый массив с помощью этого кода, но он просто возвращает один элемент массива на страницу. Я не могу понять, как сделать скачок в разборе на страницу, а не на страницу.

Мой код на страницу:

private string[] PDFParser(string filePath)
        {

            PdfReader pdfReader = new PdfReader(filePath);
            PdfDocument pdfDoc = new PdfDocument(pdfReader);
            string[] pageContent = new string[pdfDoc.GetNumberOfPages() + 1];
            for (int page = 1; page <= pdfDoc.GetNumberOfPages(); page++)
            {
                ITextExtractionStrategy strategy = new SimpleTextExtractionStrategy();
                pageContent[page] = PdfTextExtractor.GetTextFromPage(pdfDoc.GetPage(page), strategy);
            }
            pdfDoc.Close();
            pdfReader.Close();
            pageContent[pageContent.Length] = "Processed On" + DateTime.Today.ToString();
            return pageContent;
        }

Для справки, исходные данные является публичной c записью и доступна здесь: https://www.scsdonline.com/reports/InCustody.pdf

...