Я наконец-то решил проблему с некоторым обходным путем.
1) Я преобразовал файлы * .rft в файлы * .txt с помощью команды textutil
в терминале MacOSX:
find . -name \*.rtf -print0 | xargs -0 textutil -convert txt
Этим я избавляюсь и от форматирования.
2) Затем я использовал функцию read_plus
Йенса Леррссена. Однако теперь я использую read.delim
вместо read_rtf
и включил две опции (stringsAsFactors
и quote
), чтобы избавиться от предупреждений и / или ошибок:
read_plus <- function(flnm) {
read.delim(flnm, header = FALSE, stringsAsFactors = FALSE, quote = "") %>%
mutate(filename = flnm)
}
3) Наконец, я прочитал все файлы * .txt и переименовал столбец n V1
в конце.
df <- list.files(path = "./data", pattern = "*.txt",
full.names = TRUE) %>%
map_df(~read_plus(.)) %>%
rename(paragraph = V1)