Я пытаюсь создать облако слов и получить частоту слов для китайской речи, используя R, jiebaR и корпус, но не могу сделать корпус. Вот мой код:
library(jiebaR)
library(stringr)
library(corpus)
cutter <- worker()
v36 <- readLines('v36.txt', encoding = 'UTF-8')
seg_x <- function(x) {str_c(cutter[x], collapse = '')}
x.out <- sapply(v36, seg_x, USE.NAMES = FALSE)
v36.seg <- x.out
v36.seg
library(quanteda)
corpus <- corpus(v36.seg) #Error begins here.
summary(corpus, showmeta = TRUE, 1)
texts(corpus)[1]
tokens(corpus, what = 'fasterword')[1]
tokens <- tokens(v36.seg, what = 'fasterword')
dfm <- dfm(tokens)
dfm
Мой текстовый файл содержит следующие абзацы:
![enter image description here](https://i.stack.imgur.com/HNK1S.png)
Ошибка начинается, когда я создаю корпус , R возвращает:
Error in corpus.default(v36.seg) :
corpus() only works on character, corpus, Corpus, data.frame, kwic objects.
Я не понимаю, почему текст проблематичен c. Благодарен, если вы можете помочь мне решить проблему. Спасибо.