Я пытаюсь преобразовать массив данных в корпус для китайских материалов. Я использовал JiebaR, чтобы разбить и токенизировать текст, а затем использовать порядок

corpus1 = corpus (dataframe)

Хотя после этого процесса, когда я пытаюсь сформулировать матрицу данных, я нахожу некоторыеКитайские слова были разделены на один символ. Я хочу знать причину и как это исправить. Большое вам спасибо!

Как избежать слова токен при преобразовании данных в корпус?

corpus1 = corpus (dataframe)

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Как избежать слова токен при преобразовании данных в корпус?

corpus1 = corpus (dataframe)

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Похожие темы