Извлечение данных с использованием c# - PullRequest
0 голосов
/ 10 июля 2020

Я хочу проанализировать PDF-файл и извлечь такие данные, как контактные данные имени и адреса, используя c#

Анализ данных PDF-файлов выполняется с помощью pdfpig. Может ли кто-нибудь предложить или помочь с извлечением данных? Как извлечь точную пару ключ-значение из доступных данных? Заранее спасибо !!


Я хочу извлечь ProposerName

1 Ответ

0 голосов
/ 11 июля 2020

Посмотрите на этот кусок строки: Proposerdetails1.ProposerName:RAJINDERKUMARGUPTA2.ProposerAddress:NEARPIPALCHOWK

Вы видите шаблон <Key>:<Value>. как в ProposerName:RAJINDERKUMARGUPTA2.?

Вы хотите найти этот конкретный ключ / Пара значений из текста и возьмите значение.

Вы можете использовать Регулярные выражения (Regex) .

//Imagine that your data is stored here in 'fullText'
public static string GetProposerName(string fullText)

   /* Here's the regex filter for us to find a piece of string in the data with the 
    * key ProposerName, some value that we don't know yet and a . termnation.
    * Now take a look in the content inside the (). 
    * This is a group. The symbols between it means that we
    * want to get everything, any content, that is there inside the group. */
   string regexPattern = "ProposerName:(.*?)\\.";

   //Use this classes from System.Text.RegularExpressions
   Match match = Regex.Match(fullText, regexPattern);

   //Important test, it may not find anything...
   if (!match.Success) return null;

   /* If your code reaches here means that you've find the pattern inside the text.
    * Now you take only the value inside the group as a string and voila!*/
   string proposerName = match.Groups[0].Value;

   return proposerName;