Извлечь сложное предложение с помощью rm_between - PullRequest
0 голосов
/ 18 июня 2020

Я использую rm_between (из qdapregex), пытаясь извлечь текст из приведенного ниже предложения (текст выделен жирным шрифтом, чтобы прояснить вопрос, в исходном наборе данных весь текст одинаков. Пытается извлечь на основе местоположения между 2 указанные строки).

необходимо извлечь:

\ nИнтерпретации \ n Повышенная кислота, а также значительная корреляция с узлом. в соответствии с бер. \ neПодписано KMN MA 01.06.2020; данные; отчеты;

или извлеките это

\ nИнтерпретации \ n Повышенная кислотность, а также значительная корреляция с узел. в соответствии с бер. \ neSigned KMN MA 01.06.2020 ; данные; отчеты;

Я пробовал следующие коды, но они продолжают возвращать NA

какие-либо предложения? Я бы предпочел использовать тот же пакет (так как я уже извлек с ним другие фразы из того же набора данных), но готов попробовать другие, если вы предложите

x$Impression2 = rm_between(x$nam, "Interpretations\\n", ";data", extract=TRUE)

x$Impression2 = rm_between(x$nam, "Interpretations\\n", "data;reports", extract=TRUE)

x$Impression2 = rm_between(x$nam, "Interpretations\\n", "[[:digit:]];data", extract=TRUE)

x$Impression2 = rm_between(x$nam, "Interpretations\\n", "\\d;data", extract=TRUE)

x$Impression2 = rm_between(x$nam, "Interpretations\\n", "\\d;data", fixed = FALSE, extract=TRUE)

x$Impression2 = rm_between_multiple(x$nam, "Interpretations\\n", "[ ]{2,}", extract=TRUE)


Я думаю, проблема в новой строке в текст, который я хочу извлечь, поэтому я думаю, что могу заменить все символы новой строки на пробел, а затем извлечь (используя это, например, удалить все разрывы строк (ввести символы) из строки, используя R ), но я предпочитаю сохранять символы новой строки по возможности, любое предложение приветствуется

спасибо

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...