Объединение папки файлов .txt в один файл .csv с использованием R - PullRequest
0 голосов
/ 04 октября 2018

Я пытаюсь выполнить структурное моделирование темы.Поэтому я пытаюсь объединить большое количество текстовых файлов (которые являются газетными статьями) в один CSV-файл, чтобы затем перейти к структурной модели темы.Для этого.Я хотел бы создать файл .csv, который включает имена файлов .txt в строке1 и весь текст файлов .txt в строке2.Если это сработает, я мог бы легко добавить docvariables в каждый файл .txt с помощью usig gsub и regrex.

Я попробовал этот код, полученный из другого руководства, но один шаг, похоже, не работает.(если кто-то знает совершенно другой способ, не стесняйтесь представить.)

Этот код пытается объединить 4.TXT-файлы

*

       createcsv <- function(mydir, mycsvfilename){
             starting_dir <- getwd()
             myfiles <- list.files(mydir, full.names = FALSE, pattern = "*.txt")
             mytxts <- lapply(myfiles, readLines)
             mytxts1lines <- unlist(mytxts, recursive = FALSE)
             mytxtsdf <- data.frame(filename = basename(myfiles), 
                                 fulltext = mytxts1lines)
             write.table(mytxtsdf, file = paste0(mycsvfilename, ".csv"), sep = ",", row.names = FALSE, col.names = FALSE, quote = FALSE)

    message(paste0("Your CSV file is called ", paste0(mycsvfilename, ".csv"),  and can be found in ', getwd()))

ошибка:

Ошибка в data.frame (имя_файла = basename (myfiles), fulltext = mytxts1lines):аргументы подразумевают различное количество строк: 4, 529

Я предполагаю, что функция unlist (при создании mytxts1lines распознает каждую строку каждого отдельного txt-файла как отдельные файлы, поэтому составляет 529 строк, а не 4 (4Текстовые файлы)

Кто-нибудь знает, как я мог решить эту проблему?

спасибо alessio

...