Извлечь дату из pdf c # - PullRequest
       43

Извлечь дату из pdf c #

0 голосов
/ 28 декабря 2018

извлекает дату, когда она лежит в первой строке, так же, как строка

У меня есть несколько PDF одного и того же формата, все документы PDF начинаются со строки "BEGIN".На основе строки «НАЧАЛО» я должен извлечь дату, которая находится во второй строке.Я был в состоянии выполнить этот код.Однако моя проблема в том, что есть несколько документов, в которых Дата (ММ / ДД / ГГГГ) и строка «НАЧАЛО» лежат в первой строке.Здесь я не могу извлечь дату, потому что она рассматривает другую строку, которая находится в следующей строке.

Ниже мой код;

string text = string.Empty;
text += PdfTextExtractor.GetTextFromPage(R, i);
int BEGIN_Location = 0;
string sSbeginValue = string.Empty;


 if (text.Contains("BEGIN"))
{
 BEGIN_Location = text.IndexOf("BEGIN", 0);
 sSbeginValue = text.Substring(BEGIN_Location + 6, 10);
}

Also here

1 Ответ

0 голосов
/ 24 мая 2019

вот мой способ получить дату (xx.xx.xxxx) из pdf, используя Spire.Pdf

private string ParsePDF(string filepathname)
    {
        PdfDocument document = new PdfDocument();
        document.LoadFromFile(filepathname);

        StringBuilder content = new StringBuilder();
       string tex =  content.Append(document.Pages[0].ExtractText()).ToString();
        MessageBox.Show(tex);
        string pattern;
        pattern = @"\d{2,}.\d{2,}.\d{2,}";// 01_01_2019
        var m = Regex.Match(tex, pattern);
        if (!string.IsNullOrEmpty(m.Value))
        {
            return m.Value.Substring(0);
        }
        return "";           
    }
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...