У меня есть несколько больших файлов JSON из источника, который я не контролирую, пытаясь очистить их в Notepad ++ перед использованием их в качестве входных данных для программы.
Файл содержит много последовательностей Unicode,о котором я, к сожалению, очень мало знаю.Это тип, использующий две или три последовательности для представления одного символа, например \ u00c3 \ u00a9 для é и \ u00e2 \ u0080 \ u0094 для тире (-).
Я провел всю ночь, прибегая к помощи Googleкак преобразовать их обратно в обычные символы, но, к сожалению, я не очень понимаю, с чем сталкивался.
В конце концов я понял, что, установив плагин HTML-тега, я могу использовать "Decode JS" наих, затем преобразуйте весь файл в ANSI, а затем представьте его как UTF-8, что устраняет проблему с большинством символов.
Но некоторые, например, em dash или Ç(\ u00c3 \ u0087), по-прежнему отказываются преобразовываться.
Может кто-нибудь указать мне, почему эти конкретные символы по-прежнему отображаются неправильно, и как я могу это исправить?Спасибо.