Я работаю над набором данных WMT2018 для китайского языка, чтобы сделать машинный перевод. Я обнаружил, что в данных много странных символов, которые выглядят следующим образом:
Я подумал, что это проблема кодирования, поэтому я преобразовал его в текстовый файл с UTF-8, который поддерживает китайские иероглифы, но эта проблема остается.
Есть идеи, как решить эту проблему?