Прочитать конкретное значение на основе имени метки из PDF в C # - PullRequest
0 голосов
/ 16 мая 2019

У меня есть приложение asp.net Core 2.0 C#, которое читает / анализирует PDF-файл и получает текст. В этом я хочу прочитать конкретные значения, которые имеют конкретное имя метки. Вы можете увидеть ниже изображения Я хочу получить значение 171857, которое является Invoice числом, и сохранить его в базе данных. enter image description here

Я попробовал код ниже, чтобы прочитать PDF, используя iTextSharp.

using (PdfReader reader = new PdfReader(fileName))
        {
            StringBuilder sb = new StringBuilder();

            ITextExtractionStrategy strategy = new SimpleTextExtractionStrategy();
            for (int page = 0; page < reader.NumberOfPages; page++)
            {
                string text = PdfTextExtractor.GetTextFromPage(reader, page + 1, strategy);
                if (!string.IsNullOrWhiteSpace(text))
                {
                    sb.Append(Encoding.UTF8.GetString(ASCIIEncoding.Convert(Encoding.Default, Encoding.UTF8, Encoding.Default.GetBytes(text))));
                }
            }

            var pdfText = sb.ToString();
        }

В переменной pdfText я получу весь текстовый контент из pdf, но, похоже, это неправильный способ получения номера счета. Есть ли другой способ прочитать конкретный контент из pdf по имени метки, например, мы предоставим имя метки Invoice, и он вернет значение 171857 в качестве примера с другими сторонними библиотеками для чтения PDF-файлов?

Любая помощь или предложения будут высоко оценены.

Спасибо

...