Как удалить эти сноски из текста - PullRequest
0 голосов
/ 12 апреля 2020

Хорошо, так что у меня минимальный опыт работы с RStudio, я уже несколько часов гуглю это, и я сыт по горло - мне уже наплевать на гордость, чтобы выяснить это самостоятельно, я просто хочу этого сделанный. Я хочу кое-что сделать с Canterbury Tales-- версия Middle Engli sh на Гутенберге.

Загрузил открытый текст, обрезал метаданные и т. Д. c, но это чурка -полный "полезных" сносок, и я не могу понять, как их вырезать. Пример:

"И в скором времени, когда сын должен был отдыхать,

Итак, я говорил с Хэмом Эверихоном,

Что я был из его фелопаста в ближайшее время,

И сделал форвард для того, чтобы рисовать,

Чтобы взять нашу вей, как я, а, девайс.

19. Hn. Bifel; E. Bifil.   23. E. were; _rest_ was.   24. E. Hn.
compaignye.   26, 32. E. felaweshipe.   Hl. pilgryms; E. pilgrimes.
34. E. oure

But natheles, whyl I have tyme and space,..."

По крайней мере, у меня есть смутное представление о том, что это grep / Загадка регулярных выражений. Глядя на текст в TextEdit, каждый пакет сносок имеет отступ в 4 пробела, а следующий стих начинается с заглавного слова с отступом (также редактировать: 4 пробела).

Поэтому я попытался загрузить пакет qdap и использование функции rm_between для определения удаления текста между четырьмя пробелами и числом, а также два пробела и заглавная буква ("[0-9]", "" [AZ] ") безрезультатно.

Я имею в виду, что это не так просто, как «сделать текст строчными и убрать все числа во время уроков», которые так полезны во всех уроках. Но я предполагаю, что это довольно распространенная вещь, которую люди должны делать при работе с большими текстами. Может кто-нибудь мне помочь? Или мне нужно go в textedit и просто вручную удалить все сноски?

РЕДАКТИРОВАТЬ: я перезапустил рабочую область сегодня, и все, что у меня есть, это сканирование файла, каждая строка хранится в символьном векторе, с обрезанными метаданными Гутенбурга:

text<- scan("thefilepath.txt, what = "character", sep = "\n")  
start <-which(text=="GROUP A. THE PROLOGUE.")  
end <-which(text==""God bringe us to the Ioye . that ever schal be!")  
cant.lines.v <- text[start:end]

И это все. В конце концов я

cant.v<- paste(cant.lines.v, collapse=" ")

И затем strsplit и unlist в вектор отдельных слов - но я предполагаю, чтобы избавиться от сносок, Мне нужно gsub и заменить на пробел, и что будет легче с каждой отдельной строкой? Я просто не знаю, как кодировать шаблон, который мне нужно вырезать. Я считаю, что это 4 пробела, за которыми следует число, затем продолжается до тех пор, пока вы не получите 4 пробела, за которыми следует заглавное слово и второе слово без цифр, специальных символов и знаков препинания.

Я надеюсь, что я предоставляю достаточно информации, я не очень разбираюсь в этом, но я хочу стать таким ... заранее спасибо.

...