Я преобразовал несколько тысяч PDF-файлов в файлы .txt в R, и я пытаюсь проанализировать полезную информацию. Одна из строк, которая мне нужна, постоянно находится после «пожалуйста, свяжитесь:», как, например, -
Это заголовок документа файла
По всем вопросам обращайтесь:
Контактное лицо
Я хотел бы извлечь имя контакта и поместить его в отдельный столбец в отдельной таблице для каждого текстового файла вместе с другой информацией. Эта часть документа отличается по местоположению, но всегда будет предшествовать "contact:"
Я пытался использовать:
str_trim(sapply(strsplit(textdata[grepl("contact:",textdata)], ":"), "[", 2)[1], side = "left")
но это не работает, потому что он не пропускает следующую строку.