У меня есть около 200 .txt файлов с текстами песен, которые имеют формат, подобный этому
Useless info
useless info
First Verse
First Verse
Second Verse
Second Verse
useless info
, и я хотел бы прочитать все из них в R, чтобы провести некоторый анализ текста. Моя мысль - прочитать их с readLines
, а затем удалить элементы из этого вектора перед первой и последней пустыми строками. Это то, что я имею до сих пор.
lines <- readLines(txtfile)
lines
> "Useless info" "useless info" "" "" "First Verse" "First Verse"
> "" "" "Second Verse" "Second Verse" "" "" "useless info"
Если бы я жестко запрограммировал решение, я бы просто имел элементы lines[5:6,8:9]
и присвоил бы его новой переменной, но поскольку в тексте песни иногда есть два Стихи, а иногда и три, я надеялся, что найдется решение, которое уберет элементы до первого двойного "" и после последнего двойного ""
Если я ошибаюсь, и у кого-то есть идея получше Я более чем счастлив услышать это!
ОБНОВЛЕНИЕ: строки «Бесполезная информация» буквально не говорят «Бесполезная информация», это пути к файлам с текстами и тегами, так что для аналитики причины, они бесполезны для меня