Str_extract_all в R не распознает все доступные совпадения - PullRequest
0 голосов
/ 27 сентября 2019

Я пытаюсь выполнить извлечение текста с помощью R. У меня очень длинные файлы docx (44 страницы) с повторным выделением текста, и я хочу извлечь каждый экземпляр текста между определенными строками.Все страницы имеют одинаковый макет, отличается только текст между этими строками, и я хочу его получить (у меня должно быть 44 совпадения обеих этих строк, по одной на страницу).Я использую вещь regex101, она легко находит все 44 вхождения строк, но если я использую str_extrat_all, я получаю только 36. Stri_count_regex находит 42, то же самое для stri_match_all_regex и str_extract_all также только находят 42. С тем же кодом.Почему это работает в regex-tester, а не в R?Помогите!

Я пытаюсь извлечь весь экземпляр текста (и тех случаев, когда нет текста и только строки, поэтому я не использовал обходной путь) между (новой строкой) Bla и (новой строкой) концом,Между Bla и end может быть новая строка, которую я попытался включить в опцию.Я подозреваю, что это выражения новой строки, но я не понимаю, в чем разница между использованием \\\ n и \ n (дает тот же результат, что и \\ n).

это мой код

str_extract_all(dada, "(?s)\\\n?Bla.*?\\\nend") 

В качестве примера мой текст будет выглядеть примерно так:

Lorem ipsum dolor sit amet, consitteuer adipiscing elit.Aenean Коммандо Лигула Эгет Долор.Эней Масса.Cum sociis natoque penatibus et magnis dis parturient montes, nascetur ridiculus mus.Donec quam felis, ultricies nec, pellentesque eu, pretium quis, sem. \ NBla: Однажды утром, когда Грегор Самса проснулся от беспокойных снов, он обнаружил, что превратился в своей постели в ужасного паразита.Он лежал на спине, похожей на доспехи, и, немного приподняв голову, он мог видеть его коричневый живот, слегка выпуклый и разделенный арками на жесткие участки.\ n Постельные принадлежности едва могли прикрыть его и, казалось, были готовы соскользнуть в любой момент.Его многочисленные ноги, ничтожно худые по сравнению с остальной частью его тела, беспомощно махали, когда он смотрел."Что случилось со мной?"подумал он. \ nend \ n

...