У меня есть датафрейм, созданный с использованием readtext ().У него есть два столбца: doc_id, text.Для каждой строки (doc_id) я хочу извлечь подстроку (в моем случае название правительственного департамента) между двумя строками, которые повторяются n раз в текстовом столбце.Например:
documents <- data.frame(doc_id = c("doc_1", "doc_2"),
text = c("PART 1 Department of Communications \n Matters \n Blah blah blah \n PART 2 Department of Forestry \n Matters \n Blah blah blah", "PART 1 Department of Communications \n Matters \n Blah blah blah \n PART 3 Department of Health \n Matters \n Blah blah blah \n PART 5 Department of Sport \n Matters \n Blah blah"))
Я хотел бы получить следующее:
"doc_1" "Department of Communications, Department of Forestry"
"doc_2" "Department of Communications, Department of Health, Department of Sport"
По сути, я хочу извлечь строку между PART и Matters.Я хотел бы использовать операции dplyr :: rowwise на фрейме данных, но не знаю, как извлечь несколько раз между двумя повторяющимися строками.