У меня есть CSV с контентом в кодировке UTF-8.Однако различные приложения и системы ошибочно обнаруживают кодировку CSV как Windows-1252
, что нарушает все специальные символы в файле (например, Umlauts).
Я вижу, например, Sublime Text (в Windows)также автоматически обнаруживает неправильную кодировку Windows-1252
при первом открытии файла, показывая искаженный текст там, где должны быть специальные символы.
Когда я выбираю Открыть заново с кодировкой » UTF-8 , все будет выглядеть нормально, как и ожидалось.
Теперь, чтобы найти источник ошибки, я подумал, что это может помочь выяснить, почему эти приложения не обнаруживают автоматическикодирование в первую очередь.Возможно, где-то есть какой-то случайный символ с неправильной кодировкой.
CSV, о котором идет речь, на самом деле представляет собой автоматически сгенерированный экспорт продукта установки Magento 2.Недавно кодировка символов прервалась, и я сейчас пытаюсь выяснить, что произошло - отсюда мое расследование того, почему этот экспорт определяется как Windows-1252
.
Есть ли надежный способ выяснить, почему автоматическое обнаружение приложенийкак Sublime Text предполагают неправильную кодировку символов?