Я пытаюсь преобразовать массив данных в корпус для китайских материалов. Я использовал JiebaR, чтобы разбить и токенизировать текст, а затем использовать порядок
corpus1 = corpus (dataframe)
Хотя после этого процесса, когда я пытаюсь сформулировать матрицу данных, я нахожу некоторыеКитайские слова были разделены на один символ. Я хочу знать причину и как это исправить. Большое вам спасибо!