Я создавал корпус и преобразовывал кучу файлов .txt
, используя пакет tm
.Эти .txt
файлы содержат тексты, которые я скопировал и вставил с веб-страниц.После запуска кода Корпус я запустил функцию writeLines(as.character)
для проверки файлов.Однако, возвращение трех .txt
файлов было пустым.
А затем после того, как я изменил регистр и знаки препинания, как показано ниже, другие файлы были возвращены как пустые.
docs <- Corpus(DirSource(...))
docs <-tm_map(docs,content_transformer(tolower))
toSpace <- content_transformer(function(x, pattern) { return (gsub(pattern, " ", x))})
docs <- tm_map(docs, toSpace, ":")
docs <- tm_map(docs, toSpace, "–")
docs <- tm_map(docs, toSpace, "’")
docs <- tm_map(docs, toSpace, "'")
docs <- tm_map(docs, toSpace, ".")
docs <- tm_map(docs, toSpace, "“")
docs <- tm_map(docs, toSpace, "”")
writeLines(as.character(docs[[10]]))
Интересно, была ли это ошибка, сделанная мной, или из-за некоторых проблем с исходными файлами .txt
?