Я пытаюсь прочитать .txt файлы в R, используя readtext и quanteda, которые я проанализировал из базы данных SE C Edgar, опубликованной в открытых списках фирм. Пример файла .txt: здесь , а более удобная для пользователя версия - здесь для сравнения (PG & E во время калифорнийских лесных пожаров).
Мой код для папки 1996 года, содержащей много файлов .txt, следующий:
directory<-("D:")
text <- readtext(paste0(directory,"/1996/*.txt"))
corpus<-corpus(text)
dfm<-dfm(corpus,tolower=TRUE,stem=TRUE,remove=stopwords("english"),remove_punct=TRUE)
Я заметил, что dfm по-прежнему содержит много «бесполезных» токенов, например как 'font-style', 'itali c', и в конце многие бесполезные токены, такие как '3eyn' и 'kq', которые, я думаю, являются частью части .jpg в нижней части файла .txt.
Когда я кодирую документы при использовании readtext, проблема все еще сохраняется, например, при выполнении:
text<-readtext(paste0(directory,"/*.txt"),encoding="UTF-8")
text<-readtext(paste0(directory,"/*.txt"),encoding="ASCII")
Любая помощь о том, как очистить эти файлы, чтобы они выглядели больше как пользователь Дружественная версия выше (т.е. содержит только основной текст) очень ценится.