Текстовый процессор неправильно кодирует символы для моделирования темы в r - PullRequest
0 голосов
/ 08 апреля 2019

Я пытаюсь построить тему моделирования с использованием данных на турецком языке.Я читаю во всех текстовых файлах и использую функцию textProcessor для очистки / предварительной обработки текста, но возвращаемые модели тем содержат странные символы - это не имеет смысла, сигнализируя мне, что есть проблема с кодировкой.Я искал проблемы, связанные с кодировкой UTF-8 для турецких спецсимволов, но, похоже, не смог ее решить.Любая помощь будет принята с благодарностью!

data_raw <- list.files(pattern="*.txt")%>%map(read_file)%>%map_df(enframe)
names<-list.files(pattern="*.txt")
data_raw <- cbind(turkey_raw, names)
data <- turkey_raw%>%mutate(year = as.numeric(str_extract(names, "[0-9][0-9][0-9][0-9]")))%>%arrange(year)

Encoding(data$value) <- "UTF-8"
data <- data%>%select(value, year)
out <- textProcessor(data$value, metadata = data, language = "turkish", removestopwords = F, customstopwords = stopturkish)
## Fit STM model
stm_fit <- stm(out$documents, out$vocab, K = 5, prevalence = ~ s(year), 
                       max.em.its = 75, data = out$meta, init.type = "Spectral")
plot(stm_fit, type = "labels")

Она должна возвращать нормальные слова, но вместо этого тематические модели включают такие слова, как «zde», что на самом деле даже не слово.(См. Изображение) Любые предложения или помощь будут очень признательны!

Вывод кода

...