writeLines () возвращает пустой .txt после пакета transformation-r tm - PullRequest
0 голосов
/ 19 сентября 2019

Я создавал корпус и преобразовывал кучу файлов .txt, используя пакет tm.Эти .txt файлы содержат тексты, которые я скопировал и вставил с веб-страниц.После запуска кода Корпус я запустил функцию writeLines(as.character) для проверки файлов.Однако, возвращение трех .txt файлов было пустым.

А затем после того, как я изменил регистр и знаки препинания, как показано ниже, другие файлы были возвращены как пустые.

docs <- Corpus(DirSource(...))
docs <-tm_map(docs,content_transformer(tolower))
toSpace <- content_transformer(function(x, pattern) { return (gsub(pattern, " ", x))})
docs <- tm_map(docs, toSpace, ":")
docs <- tm_map(docs, toSpace, "–")
docs <- tm_map(docs, toSpace, "’")
docs <- tm_map(docs, toSpace, "'")
docs <- tm_map(docs, toSpace, ".")
docs <- tm_map(docs, toSpace, "“")
docs <- tm_map(docs, toSpace, "”")
writeLines(as.character(docs[[10]]))

Интересно, была ли это ошибка, сделанная мной, или из-за некоторых проблем с исходными файлами .txt?

...