Анализ текста в R: создание корпуса создает необычный текст - PullRequest
1 голос
/ 28 мая 2020

Я читаю один текстовый файл и мой код ниже. Он отлично читается, но символы \ t помещаются в случайные места по всему корпусу.

Примеры: Оригинал в текстовом файле 5. Если вы отвечаете как физическое лицо, ..... In Corpus"5. \ tЕсли вы отвечаете как физическое лицо, ...

или Q1. Какие уроки мы можем извлечь из других источников ...." Q1. \ TКакие уроки мы можем учиться в другом месте .....

Похоже, вкладка переводится в \ t в корпусе

Есть идеи, как это исправить?

Спасибо

# set pathway to text files
folder<-"C:\\xxxxxx\\Text files"
folder
# lists all files in pathway 
list.files(path=folder)
# filters text files only
list.files(path=folder, pattern="*.txt")

# set vector
filelist<-list.files(path=folder, pattern="*.txt")

# assign pathways to files
paste(folder, "\\", filelist)
# removes separations in pathways by setting as empty
filelist<-paste(folder, "\\", filelist, sep="")
filelist

# apply a function to read in multiple txt files - warnings are OK
a<-lapply(filelist, FUN=readLines)
# apply a function to collaspe into a single element
corpus<-lapply(a, FUN=paste, collaspe=" ")

1 Ответ

2 голосов
/ 28 мая 2020

gsub() - отличная функция, которая заменяет все экземпляры шаблона другой строкой. В вашем случае это должно помочь:

# apply a function to read in multiple txt files - warnings are OK
a<-lapply(filelist, FUN=readLines)
# apply a function to collaspe into a single element
corpus<-lapply(a, FUN=paste, collaspe=" ")
# replace all '\t' with '   '
corpus<-gsub(pattern = '\\\t', replacement = '', corpus)
...