Что это за кодировка и как мне превратить ее в то, что я могу видеть правильно? - PullRequest
0 голосов
/ 11 апреля 2019

Я пишу скрипт, который будет работать с файлами субтитров популярного потокового сервиса (Netfl * x).

В файлах субтитров есть странные символы, и я не могу заставить их отрендеритьсятаким образом, чтобы мои текстовые редакторы или веб-браузер отображались в удобочитаемой форме.В кодировке xml указано UTF-8, но некоторые символы не читаются.

<?xml version="1.0" encoding="UTF-8" standalone="no"?>
<tt xmlns:tt="http://www.w3.org/ns/ttml" xmlns:ttm="http://www.w3.org/ns/ttml#metadata" xmlns:ttp="http://www.w3.org/ns/ttml#parameter" xmlns:tts="http://www.w3.org/ns/ttml#styling" ttp:tickRate="10000000" ttp:timeBase="media" xmlns="http://www.w3.org/ns/ttml">
<p>de 15 % la nuit dernière.</span></p>
<p>if youâve got things to doâ¦</span></p>

И в Vim:

enter image description here

Вот как это выглядит в браузере:

enter image description here Как я могу преобразовать это во что-то, что я могу использовать?

1 Ответ

1 голос
/ 11 апреля 2019

Я выйду на конечность и скажу, что файл в кодировке UTF-8 очень хорошо закодирован, а вы просто смотрите на него, используя неправильную кодировку.Символ А, закодированный в UTF-8, равен C3 80.C3 в ISO-8859-1 - это М, за которым на вашем скриншоте следует 80.Похоже, вы смотрите на файл UTF-8 с использованием (неправильной) кодировки ISO-8859.

Используйте правильную кодировку при открытии файла.

...