Комментарий к новостям на WMT2018 - PullRequest
0 голосов
/ 16 мая 2019

Я работаю над набором данных WMT2018 для китайского языка, чтобы сделать машинный перевод. Я обнаружил, что в данных много странных символов, которые выглядят следующим образом:

enter image description here

Я подумал, что это проблема кодирования, поэтому я преобразовал его в текстовый файл с UTF-8, который поддерживает китайские иероглифы, но эта проблема остается.

Есть идеи, как решить эту проблему?

...