Мне нужно извлечь все подразделы (для дальнейшего анализа текста) и их заголовки из файла .Rmd (например, из 01-tidy-text.Rmd
книги по анализу текста):
https://raw.githubusercontent.com/dgrtwo/tidy-text-mining/master/01-tidy-text.Rmd)
Все, что я знаю, это то, что раздел начинается со знака ##
и продолжается до следующих #
, ##
знаков или до конца файла.
Весь текст уже извлечен (с использованием dt <- readtext("01-tidy-text.Rmd"); strEntireText <-dt[1,1]
) и находится в переменной strEntireText
.
Я бы хотел использовать stringr
для этого. или stringi
, что-то вроде:
strAllSections <- str_extract(strEntireText , pattern="...")
strAllSectionsTitles <- str_extract(strEntireText , pattern="...")
Пожалуйста, предложите ваше решение. Спасибо
Конечной целью этого упражнения является возможность автоматического создания data.frame из файла .Rmd, где каждая строка соответствует каждому разделу (и подразделу), столбцы, содержащие: заголовок раздела, метку раздела, сам текст раздела, и некоторые другие специфичные для раздела подробности, которые будут извлечены позже.