Я использую rm_between (из qdapregex), пытаясь извлечь текст из приведенного ниже предложения (текст выделен жирным шрифтом, чтобы прояснить вопрос, в исходном наборе данных весь текст одинаков. Пытается извлечь на основе местоположения между 2 указанные строки).
необходимо извлечь:
\ nИнтерпретации \ n Повышенная кислота, а также значительная корреляция с узлом. в соответствии с бер. \ neПодписано KMN MA 01.06.2020; данные; отчеты;
или извлеките это
\ nИнтерпретации \ n Повышенная кислотность, а также значительная корреляция с узел. в соответствии с бер. \ neSigned KMN MA 01.06.2020 ; данные; отчеты;
Я пробовал следующие коды, но они продолжают возвращать NA
какие-либо предложения? Я бы предпочел использовать тот же пакет (так как я уже извлек с ним другие фразы из того же набора данных), но готов попробовать другие, если вы предложите
x$Impression2 = rm_between(x$nam, "Interpretations\\n", ";data", extract=TRUE)
x$Impression2 = rm_between(x$nam, "Interpretations\\n", "data;reports", extract=TRUE)
x$Impression2 = rm_between(x$nam, "Interpretations\\n", "[[:digit:]];data", extract=TRUE)
x$Impression2 = rm_between(x$nam, "Interpretations\\n", "\\d;data", extract=TRUE)
x$Impression2 = rm_between(x$nam, "Interpretations\\n", "\\d;data", fixed = FALSE, extract=TRUE)
x$Impression2 = rm_between_multiple(x$nam, "Interpretations\\n", "[ ]{2,}", extract=TRUE)
Я думаю, проблема в новой строке в текст, который я хочу извлечь, поэтому я думаю, что могу заменить все символы новой строки на пробел, а затем извлечь (используя это, например, удалить все разрывы строк (ввести символы) из строки, используя R ), но я предпочитаю сохранять символы новой строки по возможности, любое предложение приветствуется
спасибо