Я пытаюсь выполнить структурное моделирование темы.Поэтому я пытаюсь объединить большое количество текстовых файлов (которые являются газетными статьями) в один CSV-файл, чтобы затем перейти к структурной модели темы.Для этого.Я хотел бы создать файл .csv, который включает имена файлов .txt в строке1 и весь текст файлов .txt в строке2.Если это сработает, я мог бы легко добавить docvariables в каждый файл .txt с помощью usig gsub и regrex.
Я попробовал этот код, полученный из другого руководства, но один шаг, похоже, не работает.(если кто-то знает совершенно другой способ, не стесняйтесь представить.)
Этот код пытается объединить 4.TXT-файлы
*
createcsv <- function(mydir, mycsvfilename){
starting_dir <- getwd()
myfiles <- list.files(mydir, full.names = FALSE, pattern = "*.txt")
mytxts <- lapply(myfiles, readLines)
mytxts1lines <- unlist(mytxts, recursive = FALSE)
mytxtsdf <- data.frame(filename = basename(myfiles),
fulltext = mytxts1lines)
write.table(mytxtsdf, file = paste0(mycsvfilename, ".csv"), sep = ",", row.names = FALSE, col.names = FALSE, quote = FALSE)
message(paste0("Your CSV file is called ", paste0(mycsvfilename, ".csv"), and can be found in ', getwd()))
ошибка:
Ошибка в data.frame (имя_файла = basename (myfiles), fulltext = mytxts1lines):аргументы подразумевают различное количество строк: 4, 529
Я предполагаю, что функция unlist (при создании mytxts1lines распознает каждую строку каждого отдельного txt-файла как отдельные файлы, поэтому составляет 529 строк, а не 4 (4Текстовые файлы)
Кто-нибудь знает, как я мог решить эту проблему?
спасибо alessio