У меня есть приложение netcore 3 для чтения и разделения PDF, содержащего зарплаты некоторых компаний, на которые я работаю.
Это приложение работало довольно хорошо с момента последней сборки ... Кстати, читатель PDF начал не разбирать содержимое любого PDF.
PDF построен только с итальянскими словами, без специальных символов. Несколько столов и один ло go. Я не могу прикрепить его из-за конфиденциальности.
public PaycheckSplitter Read()
{
using (var reader = new PdfReader(new MemoryStream(this._stream)))
{
var doc = new PdfDocument(reader);
this.Paycheck = new PaychecksCollection();
for (int i = 1; i <= doc.GetNumberOfPages(); i++)
{
PdfPage page = doc.GetPage(i);
string text = PdfTextExtractor.GetTextFromPage(page, new LocationTextExtractionStrategy());
if (text.Contains(Consts.BpEnd)) break;
// trying to find something by regex... btw text contains only a sequence of \n\n\n\n...
string cf = Consts.CodFiscale.Match(text).Value;
this.Paychecks.Add(new Paycheck(cf), i);
}
doc.Close();
}
return this;
}
Что я могу сделать? Насколько я понимаю ... единственный и лучший способ получить что-нибудь для чтения PDF-текста бесплатно - это iText7 ...