Я пытаюсь убрать тексты из парламентских протоколов.Поскольку данные берутся из pdf-файлов, они включают нижние колонтитулы с законодательным периодом и ссылками на страницы как таковые: «18-й законодательный период страница x из N».Поскольку все 600 протоколов различаются по общему количеству страниц, я не могу сопоставить точные выражения.Вместо этого я хотел бы использовать функцию gsub для удаления начала нижнего колонтитула и следующих n слов.
Я работал с рядом решений, предложенных для других вопросов, которые пошли в аналогичном направлении, но могне заставить его работать.
string <- "this is the first page. 18th legislative period page 1 of 44
this is the second page. 18th legislative period page 2 of 44 and this is
the third page"
gsub("18th legislative period page", "", string)
Я ожидаю, что строка будет читать
"this is the first page. this is the second page. and this is the third page."
Редактировать: Большое вам спасибо за ваше время и терпение!