Как избежать слова токен при преобразовании данных в корпус? - PullRequest
1 голос
/ 10 октября 2019

Я пытаюсь преобразовать массив данных в корпус для китайских материалов. Я использовал JiebaR, чтобы разбить и токенизировать текст, а затем использовать порядок

corpus1 = corpus (dataframe)

Хотя после этого процесса, когда я пытаюсь сформулировать матрицу данных, я нахожу некоторыеКитайские слова были разделены на один символ. Я хочу знать причину и как это исправить. Большое вам спасибо!

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...