Комментарий к новостям на WMT2018

Я работаю над набором данных WMT2018 для китайского языка, чтобы сделать машинный перевод. Я обнаружил, что в данных много странных символов, которые выглядят следующим образом:

Я подумал, что это проблема кодирования, поэтому я преобразовал его в текстовый файл с UTF-8, который поддерживает китайские иероглифы, но эта проблема остается.

Есть идеи, как решить эту проблему?

Комментарий к новостям на WMT2018

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Комментарий к новостям на WMT2018

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Похожие темы