Я пытаюсь использовать iText 7 и C#, чтобы проанализировать PDF, показывающий всех людей в нашей местной тюрьме. PDF создается автоматически, с заголовком, данными в таблице и нижним колонтитулом. Я получил iText для разбора текста в строковый массив с помощью этого кода, но он просто возвращает один элемент массива на страницу. Я не могу понять, как сделать скачок в разборе на страницу, а не на страницу.
Мой код на страницу:
private string[] PDFParser(string filePath)
{
PdfReader pdfReader = new PdfReader(filePath);
PdfDocument pdfDoc = new PdfDocument(pdfReader);
string[] pageContent = new string[pdfDoc.GetNumberOfPages() + 1];
for (int page = 1; page <= pdfDoc.GetNumberOfPages(); page++)
{
ITextExtractionStrategy strategy = new SimpleTextExtractionStrategy();
pageContent[page] = PdfTextExtractor.GetTextFromPage(pdfDoc.GetPage(page), strategy);
}
pdfDoc.Close();
pdfReader.Close();
pageContent[pageContent.Length] = "Processed On" + DateTime.Today.ToString();
return pageContent;
}
Для справки, исходные данные является публичной c записью и доступна здесь: https://www.scsdonline.com/reports/InCustody.pdf