Как извлечь все предложения с указанным c словом? - PullRequest
0 голосов
/ 23 января 2020

так что я просматриваю отчеты конгресса и хочу извлечь все предложения со словом «масло в нем».

Это моя строка кода на данный момент

Ctext.test <- readtext("GPO-CRECB-1944-pt1.pdf")
congressional.data <- as.data.frame(Ctext.test)

congressional.data$text <- replace_non_ascii(congressional.data$text, replacement = "")
congressional.data$text <- replace_contraction(congressional.data$text, replacement = "")
congressional.data$text <- replace_white(congressional.data$text, replacement = "")
congressional.data$text <- replace_html(congressional.data$text, replacement = "")
congressional.data$text <- replace_hash(congressional.data$text, replacement = "")
congressional.data$text <- replace_incomplete(congressional.data$text, replacement = "")


congressional.oil <- str_extract_all(congressional.data, "([^.]+).oil([^.]+).", simplify = T)

Я протестировал последнюю строку в regex101, и она работает там, проблема, которую я имею в R studio, заключается в том, что она также извлекает предложения, которые содержат такие слова, как «почва», «туалет», ...

Кто-нибудь знает, как я могу выделить конкретное c слово? Я новичок в R, поэтому извиняюсь за очевидную ошибку

спасибо

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...