Я пытаюсь извлечь некоторую информацию из текстового документа. Я преобразовал этот текстовый документ в фрейм данных, используя pdftext().
Теперь я хотел бы извлечь информацию, которую я ищу. Ниже приведен код для создания фрейма данных, подобного моему:
text <- data.frame(page = c(1,1,2,3), sen = c(1,2,1,1), text = c("Dear Mr case 1","the value of my property is £500,000.00 and it was built in 1980",
"The protected percentage is 0% for 2 years", "The interest rate is fixed for 2 years at 4.8%"))
Из приведенного выше кадра данных мне нужно извлечь следующее:
1: Пол человека. В этом случае это будет мужчина (смотрит на мистера)
2: число, представляющее значение свойства. в этом случае будет £ 500 000,00.
3: Защищенное процентное значение, которое в нашем случае будет 0%.
4: значение процентной ставки, в нашем случае это 4,8%.
В идеале я хотел бы вывести фрейм данных, как показано ниже:
Даже если я смогу извлечь эти фрагменты информации отдельно, это все еще достаточно хорошо. Я, вероятно, могу использовать регулярное выражение, сказать ему, чтобы найти шаблон, такой как «Защищенный процент», а затем дать мне число, которое появляется сразу после того, как он находит этот шаблон. Любая помощь будет принята с благодарностью.