Использование gsub для замены строки и следующих n слов - PullRequest
0 голосов
/ 30 января 2019

Я пытаюсь убрать тексты из парламентских протоколов.Поскольку данные берутся из pdf-файлов, они включают нижние колонтитулы с законодательным периодом и ссылками на страницы как таковые: «18-й законодательный период страница x из N».Поскольку все 600 протоколов различаются по общему количеству страниц, я не могу сопоставить точные выражения.Вместо этого я хотел бы использовать функцию gsub для удаления начала нижнего колонтитула и следующих n слов.

Я работал с рядом решений, предложенных для других вопросов, которые пошли в аналогичном направлении, но могне заставить его работать.

string <- "this is the first page. 18th legislative period page 1 of 44 
this is the second page. 18th legislative period page 2 of 44 and this is 
the third page"

gsub("18th legislative period page", "", string)

Я ожидаю, что строка будет читать

"this is the first page. this is the second page. and this is the third page."   

Редактировать: Большое вам спасибо за ваше время и терпение!

1 Ответ

0 голосов
/ 30 января 2019

Вы можете использовать

gsub("18th legislative period page \\d+ of \\d+", "", string)
# or without the newline symbol '\n'
gsub('\\s{2,}', ' ', gsub("18th legislative period page \\d+ of \\d+", "", string))
...