так что я просматриваю отчеты конгресса и хочу извлечь все предложения со словом «масло в нем».
Это моя строка кода на данный момент
Ctext.test <- readtext("GPO-CRECB-1944-pt1.pdf")
congressional.data <- as.data.frame(Ctext.test)
congressional.data$text <- replace_non_ascii(congressional.data$text, replacement = "")
congressional.data$text <- replace_contraction(congressional.data$text, replacement = "")
congressional.data$text <- replace_white(congressional.data$text, replacement = "")
congressional.data$text <- replace_html(congressional.data$text, replacement = "")
congressional.data$text <- replace_hash(congressional.data$text, replacement = "")
congressional.data$text <- replace_incomplete(congressional.data$text, replacement = "")
congressional.oil <- str_extract_all(congressional.data, "([^.]+).oil([^.]+).", simplify = T)
Я протестировал последнюю строку в regex101, и она работает там, проблема, которую я имею в R studio, заключается в том, что она также извлекает предложения, которые содержат такие слова, как «почва», «туалет», ...
Кто-нибудь знает, как я могу выделить конкретное c слово? Я новичок в R, поэтому извиняюсь за очевидную ошибку
спасибо